测序数据处理 —— 介绍

测序数据处理 —— 介绍

前言

有了前面的基础知识铺垫,现在可以正式进入生物信息的领域。首先,我们先介绍目前应用最广泛的基因测序技术。所谓“测序”,“测”字的重点在于怎么测,用什么手段和方法来测,由此发展出了不同的测序方法,常见的基因测序方法包括:

  1. Sanger 测序:也称为合成终止测序,是第一代测序技术,通过不同的 ddNTP(二硫代氨基嘧啶核苷酸)在 DNA 合成时停止链式反应,以测序目标 DNA 序列。但是它对于长片段的测序不太适用。
  2. 二代测序(NGS):这种方法引入了可逆终止末端,从而实现边合成边测序,可以同时测序数百万个 DNA 片段,但所测的片段一般都比较短,是目前应用最广泛的测序技术;
  3. 三代测序:可以直接对单个 DNA 分子进行测序,且测序过程无需进行 PCR 扩增,有效避免了因扩增而引入的偏差和错误,提供了更准确和更长的读长,主要包括 PacBio SMRTOxford NanoporeMGI DNBSEQ T7 等技术;
  4. 单细胞测序:通过从单个细胞中分离出 DNARNA 等分子,进行高通量测序,以获取单个细胞的基因组、转录组和表观组等信息。
  5. 空间转录组测序:空间转录组技术通常使用微流控技术将组织样本分割成小块,并在每个小块上进行转录组测序。这样可以得到每个小块的基因表达数据,并通过图像处理技术将基因表达数据与组织结构关联起来

而“序”字则表明测的对象是什么,是一段段序列,包括 DNARNA 或蛋白质。DNA 测序可用于研究遗传病、肿瘤、微生物学和人类进化等领域;RNA 测序可用于研究基因表达、转录组学和疾病诊断等领域;蛋白质测序技术可用于研究蛋白质的组成、结构和功能,是生物医学研究和临床诊断中重要的工具。

当“测”和“序”作为两个分离的概念时,“测”属于实验层面,如何获取生物数据,属于数据的上游,而“序”则是分析层面,如何分析序列数据并从中挖掘出有价值的信息,属于下游分析。但两者之间却是不可分割的,当我们评估数据质量时,不得不返回去考虑不同实验阶段所可能产生的误差,从数据的产生阶段进行分析,这对于我们开发算法,提高分析结果的质量至关重要。

受限于技术原因,大部分测序方法都是将序列打断成许多长度较短的片段再进行测序,最新的三代测序可以检测更长的序列,实现对单个分子的测序,而不需要打断,但存在通量低、错误率高等问题,还需要改进。抛开一切测序技术不谈,测序的结果都是获取到序列,不管是 DNARNA 还是蛋白质序列。所以,我们做下游的数据处理和分析时,首先要面对的便是序列数据,那这些序列数据一般都是什么样子的呢?

序列数据

最常见的测序数据存储格式有 GenBankFASTAFASTQ,前两种一般代表已知的序列信息,比如人类的参考基因组序列,已知的某个基因或某条染色体序列。而 FASTQ 格式通常用于存储从测序仪下机后的数据。

GenBank

GenBank 是一个开放式的生物序列数据库,收录了来自世界各地的生物序列数据,包括基因组、转录组、蛋白质等,现由美国国家生物技术信息中心 (NCBI) 维护。GenBank 也是一种比较古老的格式了,当初为了人类阅读以及计算机处理的方便,将其设计为固定宽度的格式,前面是个字符串作为一列,用于存储数据的标识字段,后面的所有字符作为一列,用于详细描述字段的信息,其格式大致如下

LOCUS       SCU49845     5028 bp    DNA             PLN       21-JUN-1999
DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
            (AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION   U49845
VERSION     U49845.1  GI:1293613
KEYWORDS    .
SOURCE      Saccharomyces cerevisiae (baker's yeast)
  ORGANISM  Saccharomyces cerevisiae
            Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
            Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE   1  (bases 1 to 5028)
  AUTHORS   Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
  TITLE     Cloning and sequence of RE
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

名本无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值