生物信息学入门知识

最新推荐文章于 2025-03-26 09:33:04 发布

wangchuang2017

最新推荐文章于 2025-03-26 09:33:04 发布

阅读量5.8k

点赞数 11

分类专栏：转录组测序

本文链接：https://blog.csdn.net/u010608296/article/details/108766326

版权

生物信息学同时被 2 个专栏收录

642 篇文章

订阅专栏

转录组测序

22 篇文章

订阅专栏

1957年9月，克里克在论文“论蛋白质合成”中正式提出，遗传信息流的传递方向是：DNA→RNA→蛋白质，后来被称为“中心法则”。

中心法则的基本内容：

遗传信息是DNA上的核苷酸序列
基因表达包括转录（transcription）和翻译（translation）两个阶段
转录（transcription）：生物体以DNA为模板合成RNA的过程，是基因表达的核心步骤
翻译（translation）：生物体以mRNA为模板，在核糖体内合成蛋白质的过程

二代测序

生物信息学分析现在分析的主要对象就是二代测序的下机数据，因此我们要对其有一定的了解。

NGS技术（next generation sequencing）可以一次对数百万个DNA分子同时进行序列测定，又称大规模平行测序或深度测序，包括第二代、第三代和第四代测序技术。

之前的文章（戳这里）和视频（戳这里）有介绍过各种测序技术，可以戳链接查看。

二代测序技术的核心原理是边合成边测序，基本步骤包括文库制备、单克隆DNA簇的产生和测序反应，具有高通量、成本低、敏感性高、读长较短等特点。

二代测序的下机数据类型分为以下两种：

单端（Single-Read，SR）测序：只检测基因片段一端的基因信息，即一个片段只读一次；

双端（Paired-End，PE）测序：只检测基因片段两端的基因信息，即一个片段，从正向和反向各读一次。

二代测序技术主要有以下3种：Illumina/Solexa 聚合酶合成测序、罗氏 454 焦磷酸测序、ABI/SOLiD 连接酶测序。其中，应用最广的是Illumina （solexa）技术。

我们一般是对测序得到的fastq文件进行分析，fastq文件是Illumina（solexa）测序技术中一种反应测序序列的碱基质量的文件格式。

如图：

第一行：以“＠”符号开头，后面紧跟一个序列的描述信息
第二行：序列内容
第三行：以“＋”符号开头，后面可以是该序列的描述信息，也可省略
第四行：是第二行的序列内容中每个碱基所对应的测序质量值

接下来是fastq文件中一些常见名词：

Index（Barcode）：标签。在Illumina平台的多重测序过程中会使用Index来区分样品，通过Index的识别，可以在1条Lane中区分不同的样品。

Lane：泳道，可以使用Barcode在单Lane中检测多样本。

Read：是一段碱基序列。高通量测序平台产生的碱基序列就是reads，reads是read的集合。

Fragment：测序的时候要将基因序列打断成固定长度片段（即fragment）之后再进行测序，测出来的结果就是reads。单端测序由于只能从fragment的一端进行测序，测多长，read就是多长；双端测序从一个fragment的两端测序，会产生两个read。

Contig：read进行拼接之后就会获得不同长度的contig。

数据量：测序所测到的碱基总数。计算方法：数据量=读长xReads数x端数。例如：PE125，20M Reads：数据量 = 125 x 20M x 2 = 5Gb

（1Gb = 103Mb= 106Kb = 109b）

Q值：指测序过程中的碱基识别（Base Calling）过程对所识别的碱基给出的错误概率。

覆盖深度（depth of coverage、覆盖度）：是指平均碱基测序深度，即每个碱基被测序的平均次数（测序得到的总碱基数与待测基因组大小的比值）。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖所有的区域。

测序深度（Sequencing depth）是指测序得到的碱基总量（bp）与基因组大小的比值，它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系，测序带来的错误率或假阳性结果会随着测序深度的提升而下降。

转录组测序

NGS技术由于通量高、成本低、测序周期短已被广泛应用于基因组学、转录组学、蛋白质组学等方面。由于金特达基因的特色分析是转录组分析，所以小L首先学习的就是转录组分析，后续的记录也会以它为例，现在简单了解一下。

转录组测序（ＲNA sequencing，ＲNA-Seq）：即利用第 2 代高通量测序技术全面快速地获取某一物种特定器官或组织在某一特定状态下所有的转录本信息（主要包括 mＲNA 和非编码ＲNA)。所获得的海量数据经过专业生物信息软件的比对、组装等分析后，就可以还原出不同时空条件下不同组织或细胞中基因表达的各类特征。

转录组（transcriptome）：广义上指某一生理条件下，细胞内所有转录产物的集合，包括信使RNA（mRNA）、核糖体RNA（rRNA）、转运RNA（tRNA）及非编码RNA（ncRNA）；狭义上指mRNA的集合。

mRNA是以DNA的一条链为模板，以碱基互补配对原则转录而形成的一条单链。其功能就是把DNA上的遗传信息精准无误地转录下来，然后再由mRNA的碱基顺序决定蛋白质的氨基酸顺序完成翻译、合成蛋白质。
smallRNA：是生物体内一类高度保守的重要的功能分子，其大小在18-30nt，包括miRNA、siRNA、snRNA、snoRNA和piRNA等，主要功能是诱导基因沉默、调控细胞生长、发育、基因转录和翻译等生物学过程。
lncRNA（long non-coding RNA，长链非编码RNA）：是长度大于200个核苷酸的非编码RNA，可在表观遗传水平、转录水平和转录后水平调控基因的表达，广泛参与集体的生理和病理过程。
circRNA（circular RNA，环状RNA）是一类不具有5’端帽子和3’端poly（A）尾巴、并以共价键形成环状结构的非编码RNA分子，不易被核酸外切酶降解、比线性RNA更稳定。circRNA可作为竞争性内源RNA（ceRNA）结合胞内miRNA阻断miRNA对其靶基因的抑制作用，还可调控其他类型RNA、调节蛋白活性等。

生物信息数据库

生信分析必不可少的还有生物信息数据库，相信大家多少都有些了解，这里就简单说一下。

随着生物实验方法和检测手段的提高与发展，产生了海量生物学数据和成千上万的数据库。生物信息学数据库几乎覆盖了生命科学的各个领域，如核酸序列数据库，蛋白质序列数据库，蛋白质、核酸等三位数据库，文献数据库和其他数据库等。