零基础小白笔记5 | 数据清洗与再次质控

 ❀前言:(书接上回)

零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程

零基础小白笔记2 | 数据与样本信息处理

零基础小白笔记3 | 数据处理与质控

零基础小白笔记4 | 数据质控报告全解读

一、数据清洗:

(1)安装trim_galore软件:(注意名称中是下划线_哦)

conda install trim_galore
## 或者使用pip命令
pip install trim_galore

(2) 对fq数据进行清洗:

trim_galore  -j 8  -q 25  --phred33 --length 3 --stringency 3 -o data/output/clean/  SRR5195455.fq

(2.1)trim_galore 是一个用于对高通量测序数据进行质量控制和修剪的工具,它可以自动检测和去除测序数据中的接头序列和低质量序列;

(2.2)trim_galore的使用用法:

trim_galore [options] <input_file(s)>
  • -j :用于指定并行处理的线程数,通常情况下选择合适的线程数可以充分利用计算机资源并提高数据处理效率;
  • -q:即--quality: 指定最小的质量值,低于该值的序列将被去除,默认为20,本分析设为25;(小tips:单个字母选项前是一个-;而全称前的是两个--)

  • --phred33:表示测序平台使用的Phred quality score,phred33对应(Sanger/Illumina 1.9+ encoding),-phred64对应(Illumina 1.5 encoding) 【还记得质控报告的基本信息那个框框吧,对的,就是在那看】

  • --length:指定最小的序列长度,短于该长度的序列将被去除,默认为20;

  • --stringency: 指定接头序列匹配的严格程度,默认为 1;

  • -o:即--outdir,用于指明输出路径;

  • --paired:指定输入文件是否为配对的序列文件;

二、对清洗后的数据再次质控:

fastqc -t 30 -o ./data/cleandata/cleandata-qc SRR5195455_trimmed.fq
  • --o <output_directory>: 指定输出目录,将生成的质量控制结果文件保存在指定的目录中。

  • --t <num_threads>: 指定使用的线程数,以加快质量控制的速度。默认为单线程。

  • 输出网页版报告后可以再查看数据质量情况。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

田不甜啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值