转录组数据分析——数据质控

Heleness

于 2024-05-07 22:31:30 发布

阅读量872

点赞数 19

文章标签：后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Heleness/article/details/138548329

版权

1 fastqc的常用参数

-o 设置输出目录 -t 线程，同时处理几个样本

2 脚本运行的三种方式

2.1 直接运行——霸占控制台

fastqc -t 6 -o ./ SRR*.fastq.gz

2.2 脚本后台运行：nohup &——适用于比较简单的命令

alt no hup：no hang up不挂起，退出终端不会影响程序的运行 &：后台运行大于号：重定向，运行的过程写入日志文件中

2.3 命令写入sh脚本，使用nohup+&运行脚本 ——适用于比较长和复杂的命令

vim三种模式命令的复习： vim进入命令行模式（默认） i进入编辑模式 esc返回命令行模式 :进入末行模式 wq保存并退出

alt

3 fastqc运行结果

file:///C:/Users/Helen/AppData/Local/Temp/tmp-18968-M26D2xsk3OHC/SRR1039510_1_fastqc.html

3.1 Basic Statistics

alt Total Sequences：测序数据的总reads数

数据量统计方式

生物学中单位以碱基（对）数或者测序read数统计测序数据量的大小

alt 计算机中物理存储单位

3.2 Per base sequence quality每个碱基的序列质量值

横坐标：碱基的位置信息纵坐标：每个位置上每个碱基对应的Q值——画成箱式图

alt 每个位置上碱基的Q值都落在绿色区域（Q30以上）

3.3 Per Tile Sequence Quality

alt 好的结果为全蓝色测试数据只用了25000条

3.4 Per Sequence Quality Scores每条序列的碱基质量值

横坐标：平均质量值纵坐标：每个质量值对应的reads数真实数据拖尾分布 alt

3.5 Per Base Sequence Content——每个碱基位置上ATGC含量分布图

理论上，G和C、A和T的含量每个测序循环上应分别相等，且整个测序过程稳定不变，呈水平线 alt

3.6 Per sequence GC content——GC含量分布图

横轴为平均GC含量纵轴为每个GC含量对应的序列数量蓝线为理论分布红线为测量值，二者越接近越好

alt

3.7 Per base N content——N含量分布图

alt

3.8 Sequence Length Distribution——序列长度分布图

对应的长度有多少条序列

alt

3.9 Sequence Duplication Levels——序列重复性分布

alt 大多数序列只出现了一次

3.10 Overrepresented sequences

两种可能：基因本身有生物学意义/文库被污染

alt

3.11 Adapter Content——接头含量

alt

3.12 Kmer Content

Kmer：一段长度为k的DNA片段，是由测序reads剪切一部分得到的怎么才能把所有样本的html报告都看一遍？

4 multiQC进行数据整合

在multiqc的下载过程中出现了一些问题，查了一下可能是python版本的问题，这里暂时略过这一部分……

本文由 mdnice 多平台发布

关注

19
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
转录组数据分析——数据质控

在multiqc的下载过程中出现了一些问题，查了一下可能是python版本的问题，这里暂时略过这一部分……3.5 Per Base Sequence Content——每个碱基位置上ATGC含量分布图。理论上，G和C、A和T的含量每个测序循环上应分别相等，且整个测序过程稳定不变，呈水平线。2.3 命令写入sh脚本，使用nohup+&运行脚本 ——适用于比较长和复杂的命令。2.2 脚本后台运行：nohup &——适用于比较简单的命令。纵坐标：每个位置上每个碱基对应的Q值——画成箱式图。
复制链接

扫一扫

Heleness CSDN认证博客专家 CSDN认证企业博客

码龄1年

1: 原创

207万+: 周排名

20万+: 总排名

870: 访问

: 等级

32: 积分

13: 粉丝

19: 获赞

1: 评论

8: 收藏

私信

关注

热门文章

转录组数据分析——数据质控 872

最新评论

转录组数据分析——数据质控
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618631675。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。