测序数据处理 —— 介绍

最新推荐文章于 2024-06-05 14:18:19 发布

名本无名

最新推荐文章于 2024-06-05 14:18:19 发布

阅读量1.5k

点赞数 30

分类专栏：测序数据处理文章标签：大数据

本文链接：https://blog.csdn.net/dxs18459111694/article/details/138787625

版权

测序数据处理 —— 介绍

前言

有了前面的基础知识铺垫，现在可以正式进入生物信息的领域。首先，我们先介绍目前应用最广泛的基因测序技术。所谓“测序”，“测”字的重点在于怎么测，用什么手段和方法来测，由此发展出了不同的测序方法，常见的基因测序方法包括:

Sanger 测序：也称为合成终止测序，是第一代测序技术，通过不同的 ddNTP（二硫代氨基嘧啶核苷酸）在 DNA 合成时停止链式反应，以测序目标 DNA 序列。但是它对于长片段的测序不太适用。
二代测序（NGS）：这种方法引入了可逆终止末端，从而实现边合成边测序，可以同时测序数百万个 DNA 片段，但所测的片段一般都比较短，是目前应用最广泛的测序技术；
三代测序：可以直接对单个 DNA 分子进行测序，且测序过程无需进行 PCR 扩增，有效避免了因扩增而引入的偏差和错误，提供了更准确和更长的读长，主要包括 PacBio SMRT、Oxford Nanopore、 MGI DNBSEQ T7 等技术；
单细胞测序：通过从单个细胞中分离出 DNA、RNA 等分子，进行高通量测序，以获取单个细胞的基因组、转录组和表观组等信息。
空间转录组测序：空间转录组技术通常使用微流控技术将组织样本分割成小块，并在每个小块上进行转录组测序。这样可以得到每个小块的基因表达数据，并通过图像处理技术将基因表达数据与组织结构关联起来

而“序”字则表明测的对象是什么，是一段段序列，包括 DNA 、RNA 或蛋白质。DNA 测序可用于研究遗传病、肿瘤、微生物学和人类进化等领域；RNA 测序可用于研究基因表达、转录组学和疾病诊断等领域；蛋白质测序技术可用于研究蛋白质的组成、结构和功能，是生物医学研究和临床诊断中重要的工具。

当“测”和“序”作为两个分离的概念时，“测”属于实验层面，如何获取生物数据，属于数据的上游，而“序”则是分析层面，如何分析序列数据并从中挖掘出有价值的信息，属于下游分析。但两者之间却是不可分割的，当我们评估数据质量时，不得不返回去考虑不同实验阶段所可能产生的误差，从数据的产生阶段进行分析，这对于我们开发算法，提高分析结果的质量至关重要。

受限于技术原因，大部分测序方法都是将序列打断成许多长度较短的片段再进行测序，最新的三代测序可以检测更长的序列，实现对单个分子的测序，而不需要打断，但存在通量低、错误率高等问题，还需要改进。抛开一切测序技术不谈，测序的结果都是获取到序列，不管是 DNA、RNA 还是蛋白质序列。所以，我们做下游的数据处理和分析时，首先要面对的便是序列数据，那这些序列数据一般都是什么样子的呢？

序列数据

最常见的测序数据存储格式有 GenBank、FASTA 和 FASTQ，前两种一般代表已知的序列信息，比如人类的参考基因组序列，已知的某个基因或某条染色体序列。而 FASTQ 格式通常用于存储从测序仪下机后的数据。

GenBank

GenBank 是一个开放式的生物序列数据库，收录了来自世界各地的生物序列数据，包括基因组、转录组、蛋白质等，现由美国国家生物技术信息中心 (NCBI) 维护。GenBank 也是一种比较古老的格式了，当初为了人类阅读以及计算机处理的方便，将其设计为固定宽度的格式，前面是个字符串作为一列，用于存储数据的标识字段，后面的所有字符作为一列，用于详细描述字段的信息，其格式大致如下

LOCUS       SCU49845     5028 bp    DNA             PLN       21-JUN-1999
DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
            (AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION   U49845
VERSION     U49845.1  GI:1293613
KEYWORDS    .
SOURCE      Saccharomyces cerevisiae (baker's yeast)
  ORGANISM  Saccharomyces cerevisiae
            Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
            Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE   1  (bases 1 to 5028)
  AUTHORS   Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
  TITLE     Cloning and sequence of RE