NGS数据分析实践:04. 准备测序数据
文接上篇:NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式
本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hiseq X Ten测序平台上进行双末端(paired-end,PE)测序。由于是双端测序,每个样本对应两个文件,分别用R1和R2表示。公司返回了原始下机数据(Raw data)和过滤后数据(Clean data),数据文件格式均为.fastq.gz
。如:
此外,为了保证数据拷贝的完整性,公司还提供了MD5校验文件md5_Rawdata.txt和md5_Cleandata.txt。MD5文件内容如下:
利用FileZilla或WinSCP将数据上传到服务器,然后进行完整性校验:
# 数据完整性校验
md5sum -c md5_Rawdata.txt > md5RawdataCheck.txt &
md5sum -c md5_Cleandata.txt > md5CleandataCheck.txt &
# 查看校验结果
less md5RawdataCheck.txt | sort -k2,2 | head
less md5CleandataCheck.txt | sort -k2,2 | head
校验成功,表明数据完整的上传到服务器。
Raw data和clean data的区别:
一般,测序仪下机的数据称为raw data,经过以下两步处理之后变成了clean data才能用于数据分析:
(1) 去除含有接头的Reads;
(2) 去除低质量的Reads(如:去除N的比例大于10%的Reads;去除质量值Q≤10的碱基数占整条Read的50%以上的Reads等)。
不过raw data和clean data并没有一个权威的定义,不同的文章和公司可能会提供不一样的解释,不变的是:clean data是raw data经过处理得到的直接用来分析的数据。
后续分析基于公司通过内部程序质控后的clean data进行。