NGS数据分析实践:04. 准备测序数据

NGS数据分析实践:04. 准备测序数据

文接上篇:NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式

本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hiseq X Ten测序平台上进行双末端(paired-end,PE)测序。由于是双端测序,每个样本对应两个文件,分别用R1和R2表示。公司返回了原始下机数据(Raw data)和过滤后数据(Clean data),数据文件格式均为.fastq.gz。如:
在这里插入图片描述
此外,为了保证数据拷贝的完整性,公司还提供了MD5校验文件md5_Rawdata.txt和md5_Cleandata.txt。MD5文件内容如下:
在这里插入图片描述
利用FileZilla或WinSCP将数据上传到服务器,然后进行完整性校验:

# 数据完整性校验
md5sum -c md5_Rawdata.txt > md5RawdataCheck.txt &
md5sum -c md5_Cleandata.txt > md5CleandataCheck.txt &

# 查看校验结果
less md5RawdataCheck.txt | sort -k2,2 | head
less md5CleandataCheck.txt | sort -k2,2 | head

校验成功,表明数据完整的上传到服务器。
在这里插入图片描述

Raw data和clean data的区别:
一般,测序仪下机的数据称为raw data,经过以下两步处理之后变成了clean data才能用于数据分析:
(1) 去除含有接头的Reads;
(2) 去除低质量的Reads(如:去除N的比例大于10%的Reads;去除质量值Q≤10的碱基数占整条Read的50%以上的Reads等)。

不过raw data和clean data并没有一个权威的定义,不同的文章和公司可能会提供不一样的解释,不变的是:clean data是raw data经过处理得到的直接用来分析的数据。

后续分析基于公司通过内部程序质控后的clean data进行。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hucy_Bioinfo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值