测序数据处理 —— 介绍
前言
有了前面的基础知识铺垫,现在可以正式进入生物信息的领域。首先,我们先介绍目前应用最广泛的基因测序技术。所谓“测序”,“测”字的重点在于怎么测,用什么手段和方法来测,由此发展出了不同的测序方法,常见的基因测序方法包括:
Sanger
测序:也称为合成终止测序,是第一代测序技术,通过不同的ddNTP
(二硫代氨基嘧啶核苷酸)在DNA
合成时停止链式反应,以测序目标DNA
序列。但是它对于长片段的测序不太适用。- 二代测序(
NGS
):这种方法引入了可逆终止末端,从而实现边合成边测序,可以同时测序数百万个DNA
片段,但所测的片段一般都比较短,是目前应用最广泛的测序技术; - 三代测序:可以直接对单个
DNA
分子进行测序,且测序过程无需进行PCR
扩增,有效避免了因扩增而引入的偏差和错误,提供了更准确和更长的读长,主要包括PacBio SMRT
、Oxford Nanopore
、MGI DNBSEQ T7
等技术; - 单细胞测序:通过从单个细胞中分离出
DNA
、RNA
等分子,进行高通量测序,以获取单个细胞的基因组、转录组和表观组等信息。 - 空间转录组测序:空间转录组技术通常使用微流控技术将组织样本分割成小块,并在每个小块上进行转录组测序。这样可以得到每个小块的基因表达数据,并通过图像处理技术将基因表达数据与组织结构关联起来
而“序”字则表明测的对象是什么,是一段段序列,包括 DNA
、RNA
或蛋白质。DNA
测序可用于研究遗传病、肿瘤、微生物学和人类进化等领域;RNA
测序可用于研究基因表达、转录组学和疾病诊断等领域;蛋白质测序技术可用于研究蛋白质的组成、结构和功能,是生物医学研究和临床诊断中重要的工具。
当“测”和“序”作为两个分离的概念时,“测”属于实验层面,如何获取生物数据,属于数据的上游,而“序”则是分析层面,如何分析序列数据并从中挖掘出有价值的信息,属于下游分析。但两者之间却是不可分割的,当我们评估数据质量时,不得不返回去考虑不同实验阶段所可能产生的误差,从数据的产生阶段进行分析,这对于我们开发算法,提高分析结果的质量至关重要。
受限于技术原因,大部分测序方法都是将序列打断成许多长度较短的片段再进行测序,最新的三代测序可以检测更长的序列,实现对单个分子的测序,而不需要打断,但存在通量低、错误率高等问题,还需要改进。抛开一切测序技术不谈,测序的结果都是获取到序列,不管是 DNA
、RNA
还是蛋白质序列。所以,我们做下游的数据处理和分析时,首先要面对的便是序列数据,那这些序列数据一般都是什么样子的呢?
序列数据
最常见的测序数据存储格式有 GenBank
、FASTA
和 FASTQ
,前两种一般代表已知的序列信息,比如人类的参考基因组序列,已知的某个基因或某条染色体序列。而 FASTQ
格式通常用于存储从测序仪下机后的数据。
GenBank
GenBank
是一个开放式的生物序列数据库,收录了来自世界各地的生物序列数据,包括基因组、转录组、蛋白质等,现由美国国家生物技术信息中心 (NCBI
) 维护。GenBank
也是一种比较古老的格式了,当初为了人类阅读以及计算机处理的方便,将其设计为固定宽度的格式,前面是个字符串作为一列,用于存储数据的标识字段,后面的所有字符作为一列,用于详细描述字段的信息,其格式大致如下
LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999
DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
(AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION U49845
VERSION U49845.1 GI:1293613
KEYWORDS .
SOURCE Saccharomyces cerevisiae (baker's yeast)
ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE 1 (bases 1 to 5028)
AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
TITLE Cloning and sequence of RE