❀前言:(书接上回)
零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程
一、数据清洗:
(1)安装trim_galore软件:(注意名称中是下划线_哦)
conda install trim_galore
## 或者使用pip命令
pip install trim_galore
(2) 对fq数据进行清洗:
trim_galore -j 8 -q 25 --phred33 --length 3 --stringency 3 -o data/output/clean/ SRR5195455.fq
(2.1)trim_galore 是一个用于对高通量测序数据进行质量控制和修剪的工具,它可以自动检测和去除测序数据中的接头序列和低质量序列;
(2.2)trim_galore的使用用法:
trim_galore [options] <input_file(s)>
- -j :用于指定并行处理的线程数,通常情况下选择合适的线程数可以充分利用计算机资源并提高数据处理效率;
-
-q:即--quality: 指定最小的质量值,低于该值的序列将被去除,默认为20,本分析设为25;(小tips:单个字母选项前是一个-;而全称前的是两个--)
-
--phred33:表示测序平台使用的Phred quality score,phred33对应(Sanger/Illumina 1.9+ encoding),-phred64对应(Illumina 1.5 encoding) 【还记得质控报告的基本信息那个框框吧,对的,就是在那看】
-
--length:指定最小的序列长度,短于该长度的序列将被去除,默认为20;
-
--stringency: 指定接头序列匹配的严格程度,默认为
1;
-
-o:即--outdir,用于指明输出路径;
-
--paired:指定输入文件是否为配对的序列文件;
二、对清洗后的数据再次质控:
fastqc -t 30 -o ./data/cleandata/cleandata-qc SRR5195455_trimmed.fq
-
--o <output_directory>
: 指定输出目录,将生成的质量控制结果文件保存在指定的目录中。 -
--t <num_threads>
: 指定使用的线程数,以加快质量控制的速度。默认为单线程。 -
输出网页版报告后可以再查看数据质量情况。