转录组数据分析——数据质控

1 fastqc的常用参数

-o 设置输出目录 -t 线程,同时处理几个样本

2 脚本运行的三种方式

2.1 直接运行——霸占控制台

fastqc -t 6 -o ./ SRR*.fastq.gz

2.2 脚本后台运行:nohup &——适用于比较简单的命令

alt no hup:no hang up不挂起,退出终端不会影响程序的运行 &:后台运行 大于号:重定向,运行的过程写入日志文件中

2.3 命令写入sh脚本,使用nohup+&运行脚本 ——适用于比较长和复杂的命令

vim三种模式命令的复习: vim进入命令行模式(默认) i进入编辑模式 esc返回命令行模式 :进入末行模式 wq保存并退出

alt

3 fastqc运行结果

file:///C:/Users/Helen/AppData/Local/Temp/tmp-18968-M26D2xsk3OHC/SRR1039510_1_fastqc.html

3.1 Basic Statistics

alt Total Sequences:测序数据的总reads数

数据量统计方式

生物学中单位 以碱基(对)数或者测序read数统计测序数据量的大小

alt 计算机中物理存储单位

3.2 Per base sequence quality每个碱基的序列质量值

横坐标:碱基的位置信息 纵坐标:每个位置上每个碱基对应的Q值——画成箱式图

alt 每个位置上碱基的Q值都落在绿色区域(Q30以上)

3.3 Per Tile Sequence Quality

alt 好的结果为全蓝色 测试数据只用了25000条

3.4 Per Sequence Quality Scores每条序列的碱基质量值

横坐标:平均质量值 纵坐标:每个质量值对应的reads数 真实数据拖尾分布 alt

3.5 Per Base Sequence Content——每个碱基位置上ATGC含量分布图

理论上,G和C、A和T的含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线 alt

3.6 Per sequence GC content——GC含量分布图

横轴为平均GC含量 纵轴为每个GC含量对应的序列数量 蓝线为理论分布 红线为测量值,二者越接近越好

alt

3.7 Per base N content——N含量分布图

alt

3.8 Sequence Length Distribution——序列长度分布图

对应的长度有多少条序列

alt

3.9 Sequence Duplication Levels——序列重复性分布

alt 大多数序列只出现了一次

3.10 Overrepresented sequences

两种可能:基因本身有生物学意义/文库被污染

alt

3.11 Adapter Content——接头含量

alt

3.12 Kmer Content

Kmer:一段长度为k的DNA片段,是由测序reads剪切一部分得到的 怎么才能把所有样本的html报告都看一遍?

4 multiQC进行数据整合

在multiqc的下载过程中出现了一些问题,查了一下可能是python版本的问题,这里暂时略过这一部分……

本文由 mdnice 多平台发布

  • 19
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值