零基础小白笔记3| 数据处理与质控

田不甜啊

于 2023-12-24 09:00:00 发布

阅读量1k

点赞数 13

分类专栏： ChIP-seq 文章标签：笔记改行学it

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tmrtmr___/article/details/135171052

版权

ChIP-seq 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了ChIP-seq实验的前两步：如何使用fastq-dump将SRA数据转换为FastQ文件，以及如何使用fastqc进行原始数据的质控，包括安装步骤和命令行操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

❀前言：（书接上回）

零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程

零基础小白笔记2 | 数据与样本信息处理

一、sra数据转换为fastq文件：

（1）安装好fastq-dump：(需提前安装conda环境）

conda install fastq-dump
## 或者使用 pip命令
## pip install fastq-dump

（2）使用fastq-dump进行转换：

fastq-dump --split-3 --outdir /path/to/output_directory --gzip SRR5195455.sra

（2.1）fastq-dump 是 NCBI SRA Toolkit 中的命令，可从 NCBI Sequence Read Archive（SRA）下载原始测序数据并将其转换成 fastq 格式。

（2.2）使用方法：

fastq-dump --split-3 --outdir /path/to/output_directory --gzip your_sra_file.sra

--split-3: 将双端测序数据分割成两个独立的 FASTQ 文件，一个包含第一端序列，另一个包含第二端序列。这通常在双端测序中使用，以便分别处理两个端的序列数据。
/path/to/output_directory：指定输出目录，即将生成的 FASTQ 文件存放的位置。
--gzip：对生成的 FASTQ 文件进行 gzip 压缩，减小文件大小。
your_sra_file.sra：指定要处理的 SRA 文件的访问号。
输出结果应为：SRR5195455.fq.gzip

二、进行原始数据质控：

（1）安装好fastqc工具：

conda install fastqc
## 或者使用pip命令
pip install fastqc

（2）使用fastqc进行质量控制：

首先进入到存放fq（也就是fastq）文件的目录下

cd ./data/rawdata

使用fastqc命令进行分析：

fastqc -t 30 -o ./data/rawdata/rawdata-qc SRR5195455.fq

（2.1）fastqc是一种用于对FASTQ格式的测序数据进行质量控制的工具，常用参数如下：

--o <output_directory>: 指定输出目录，将生成的质量控制结果文件保存在指定的目录中。
--t <num_threads>: 指定使用的线程数，以加快质量控制的速度。默认为单线程。
--quiet: 静默模式，减少输出信息，适用于批量处理。
输出结果：网页版报告html

博客等级

码龄2年

9
原创

187
点赞

167
收藏

161
粉丝

关注

私信

热门文章

分类专栏

ChIP-seq 9篇

最新评论

零基础小白笔记7 | 对bam文件进行去重和过滤
蛰伏期: 您好，在用picard去重复序列的时候遇到这样的报错，请问您知道原因嘛？万分感谢 (/data1/hj/gatk-4/gatk-4.4.0.0/Anaconda/samtools) [pc@localhost clean]$ picard MarkDuplicates -REMOVE_DUPLICATES true -I M31.sorted.bam -O M31.markdup.bam -M M31.markdup.metrics.txt 22:07:25.142 INFO NativeLibraryLoader - Loading libgkl_compression.so from jar:file:/data1/hj/gatk-4/gatk-4.4.0.0/Anaconda/samtools/share/picard-3.2.0-0/picard.jar!/com/intel/gkl/native/libgkl_compression.so [Sat Sep 28 22:07:25 CST 2024] MarkDuplicates --INPUT M31.sorted.bam --OUTPUT M31.markdup.bam --METRICS_FILE M31.markdup.metrics.txt --REMOVE_DUPLICATES true --MAX_SEQUENCES_FOR_DISK_READ_ENDS_MAP 50000 --MAX_FILE_HANDLES_FOR_READ_ENDS_MAP 8000 --SORTING_COLLECTION_SIZE_RATIO 0.25 --TAG_DUPLICATE_SET_MEMBERS false --REMOVE_SEQUENCING_DUPLICATES false --TAGGING_POLICY DontTag --CLEAR_DT true --DUPLEX_UMI false --FLOW_MODE false --FLOW_DUP_STRATEGY FLOW_QUALITY_SUM_STRATEGY --USE_END_IN_UNPAIRED_READS false --USE_UNPAIRED_CLIPPED_END false --UNPAIRED_END_UNCERTAINTY 0 --UNPAIRED_START_UNCERTAINTY 0 --FLOW_SKIP_FIRST_N_FLOWS 0 --FLOW_Q_IS_KNOWN_END false --FLOW_EFFECTIVE_QUALITY_THRESHOLD 15 --ADD_PG_TAG_TO_READS true --ASSUME_SORTED false --DUPLICATE_SCORING_STRATEGY SUM_OF_BASE_QUALITIES --PROGRAM_RECORD_ID MarkDuplicates --PROGRAM_GROUP_NAME MarkDuplicates --READ_NAME_REGEX <optimized capture of last three ':' separated fields as numeric values> --OPTICAL_DUPLICATE_PIXEL_DISTANCE 100 --MAX_OPTICAL_DUPLICATE_SET_SIZE 300000 --VERBOSITY INFO --QUIET false --VALIDATION_STRINGENCY STRICT --COMPRESSION_LEVEL 5 --MAX_RECORDS_IN_RAM 500000 --CREATE_INDEX false --CREATE_MD5_FILE false --help false --version false --showHidden false --USE_JDK_DEFLATER false --USE_JDK_INFLATER false [Sat Sep 28 22:07:25 CST 2024] Executing as pc@localhost.localdomain on Linux 3.10.0-1160.108.1.el7.x86_64 amd64; OpenJDK 64-Bit Server VM 17.0.9-internal+0-adhoc..src; Deflater: Intel; Inflater: Intel; Provider GCS is available; Picard version: Version:3.2.0-1-g3948afb6b INFO 2024-09-28 22:07:25 MarkDuplicates Start of doWork freeMemory: 527105904; totalMe
零基础小白笔记5 | 数据清洗与再次质控
田不甜啊: 哦莫确实是我疏忽了，感谢指出
零基础小白笔记9 | 使用macs2进行调峰
田不甜啊: 如果我没记错的话是因为当时的input文件有两个，所以我随机取了一半
零基础小白笔记7 | 对bam文件进行去重和过滤
田不甜啊: 不好意思哦假期中基本没打开CSDN，个人认为颠倒顺序是不影响的呢
零基础小白笔记9 | 使用macs2进行调峰
守株逮兔366: 您好。请问这步里面bam文件大于20m取一半是啥意思，感觉bam文件就没有小于20m的谢谢您，一直看您的步骤学习。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

田不甜啊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。