fastqc检验时不能执行java_fastqc对原始测序reads质控

本文介绍了在使用FastQC进行原始测序reads质量控制时遇到的问题及解决方法。首先,需要下载并配置Java环境来运行FastQC。接着,通过批处理脚本对大量fastq文件进行质控分析。虽然过程较长,但最终能够得到详细的报告,包括reads长度、测序质量、碱基含量、GC含量分布和重复序列等关键信息,帮助评估数据质量。
摘要由CSDN通过智能技术生成

fastqc软件的使用

一:下载安装该软件

具体搜索其地址下载,fastqc是一个java软件,下载后可以直接使用,但是需要自行配置好java环境,具体配置方法,见linux下java配置。

d3e876a4f752bb691cef4be2fdd7c81e.png

二:准备数据

数据就是我们测序得到的fastq文件的reads,压缩包也可以直接运行

三:运行命令

我习惯了批处理解决问题,脚本如下:

for id in *fastq

do

echo $id

/home/jmzeng/bio-soft/FastQC/fastqc $id

Done

运行过程中会显示以下的提示信息

01c06b265a79e54e11df9992f66b6050.png

估计还是要运行很久的,比较这几个RNA-seq文件每个都是16G的

按住ctrl+A+D即可退出该后台,继续去前台执行简单任务

好像二十分钟就跑完了

87c3c105475b5efbe67580fc7e81f758.png输出文件如下

fa391505f8bff509063a10214bef8a8f.png

四:输出文件解读

可以直接打开那个html网页文件就可以查看每一个图片内容,也可以解压那个zip压缩包具体看每一张图片

下载fastqc跑出来的结果一个个解读

1,简单统计表格

7eb23b6a7f6c70b6c487c78c4ebb5fc4.png

这些英文我就不翻译了,reads均长是100bp,共四千多万条reads

2,测序质量图

322755fdcd59b666b4a8d6aaf3fcae19.png

这个图其实很容易看,就是100bp长度reads上的1-100的坐标在这四千万条reads里面的测序质量的箱线图,看那个红线均值就可以了,超过Q30就蛮好了,超过Q20也是合格的

3,碱基(A,T,C,G)含量图

3340fb9679b10ae0dc7988e4890858ee.png

这也是100bp长度reads上的1-100的坐标在这四千万条reads里面的A,T,C,G的比例,如果是全基因组全转录组的随机打断,那么就应该A,T,C,G的比例都接近于25%,如果测序是有目的性的,那么比例也就相应的改变了

4,reads的GC含量频数分布图

这是对四千万条reads里面的GC含量值做统计密度曲线,可以看到绝大部分的reads的GC含量都集中在50%附近。极端情况很少。

5,reads长度分布图

1a7873bf5a15b2c77e1c22190f2b6ba9.png

可以看到大多reads都是100bp长度,很整齐

6,可能的重复序列表格

0892a41cb6dae13bc385975bb4502414.png

可以看到这些重复序列比例很高,高达千分之一,而且被注释了可能的来源,adapter,是需要去除的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值