RNA-seq——二、sra数据下载、fastqc与质量控制

一、sra数据下载

关于sra数据下载方法可以参考之前的文章:RNA-seq——快速下载SRA数据

在Linux中下载方法如下:

# 下载所需数据
for ((i=77;i<=80;i++)) ;do prefetch -v SRR9576$i; done

# 找到自己的数据存放位置,解压文件
for((i=79;i<=80;i++));do fastq-dump --gzip --split-3 SRR9576$i.sra;done

# 跨用户,把文件放到指定位置
scp SRR9576*gz root@dzfly:/root/project/RNA/prc2/sra

因为aspera不能在root用户下载,而我的软件大都安装在root用户下,所以我新建了一个用户用来下载数据。下载完成之后再传输到root用户,有些繁琐,但是速度很快,占用的时间可以忽略不计。

关于fastq-dump的一些参数:

  • –split-files:将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
  • –split-3:将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
    在这里插入图片描述
    在这里插入图片描述

综上,就算是单端测序,使用–split-3也不会有影响,所以在不清楚是否为双端测序时,最好加上此选项。
还有一种工具是fasterq-dump,可以自定义转换时使用的线程,与fastq-dump用法相同,但速度比更快。

二、质量检测

# 单个文件qc
fastqc SRR9576*gz

# 总体qc
multiqc .

在这里插入图片描述

1. fastqc

官方结果解读:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/
中文版解读:https://www.jianshu.com/p/14fd4de54402

以SRR957677.fastq.gz的qc结果为例:
在这里插入图片描述
可以看到左侧的summary,除了per base sequence content之外基本都合格了。下面对异常进行说明。

a. Per tile sequence quality

在这里插入图片描述
此处异常,官方的解释为:Reasons for seeing warnings or errors on this plot could be transient problems such as bubbles going through the flowcell, or they could be more permanent problems such as smudges on the flowcell or debris inside the flowcell lane.
即测序时有可能出现了气泡或者通道有污染。

b. Per base sequence content

在这里插入图片描述
在 reads 开头出现碱基组成偏离往往是我们的建库操作造成的,比如建 GBS 文库时在 reads 开头加了 barcode;barcode 的碱基组成不是均一的,酶切位点的碱基组成是固定不变的,这样会造成明显的碱基组成偏离;在 reads 结尾出现的碱基组成偏离,往往是测序接头的污染造成的。

来自:https://www.cnblogs.com/xiaojikuaipao/p/7187085.html

c. Sequence Duplication Levels

在这里插入图片描述
统计完全一样reads的频率,横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。测序深度越高,越容易产生一定程度的duplication,这是正常的现象。

2. multiqc

在这里插入图片描述
当存在多个fastqc结果文件时,可以使用multiqc合并查看fastqc的结果,内容与fastqc差不多。不过页面更好看了哈哈。

三、质量控制

参数说明以及批量处理参考:https://www.cnblogs.com/sqsgoodluck/p/15914395.html

# 注意输出文件位置和gz文件位置
trim_galore -q 25 --phred33 --stringency 3 -o ../clear1/ ../sra/SRR957677.fastq.gz

# 对处理后的数据再进行qc
fastqc SRR957677_trimmed.fq.gz

# 查看具体处理情况:
cat SRR957677.fastq.gz_trimming_report.txt

在这里插入图片描述
看一下处理后的数据qc结果
在这里插入图片描述
可以对比一下,发现per base sequence quality是有那么一点提高。但是总体来说没有什么特别大的提升。因为没有处理之前的数据就已经很好了,不太需要质量控制就可以使用。

注:关于Per base sequence content开头reads的碱基组成偏离,好像可以通过剪切头部解决,还没有处理过,挖个坑,学会来再来解决。

  • 1
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值