基因测序名词解释

最新推荐文章于 2020-11-21 20:31:00 发布

weixin_30539625

最新推荐文章于 2020-11-21 20:31:00 发布

阅读量2.1k

点赞数 3

文章标签：人工智能

原文链接：http://www.cnblogs.com/daimakun/p/5075595.html

版权

1、什么是高通量测序？

高通量测序技术（High-throughput sequencing，HTS）是对传统Sanger测序（称为一代测序技术）革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

2、什么是Sanger法测序（一代测序）

Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

3、什么是基因组重测序（Genome Re-sequencing）

全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。

4、什么是de novo测序

de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息(bioinformation)学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息(bioinformation)分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。

5、什么是外显子测序（whole exon sequencing）

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

6、什么是mRNA测序（RNA-seq）

转录组学（transcriptomics）是在基因组学后新兴的一门学科，即研究特定细胞在某一功能状态下所能转录出来的所有RNA（包括mRNA和非编码RNA）的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计，可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息，并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

7、什么是small RNA测序

Small RNA（micro RNAs、siRNAs和 pi RNAs）是生命活动重要的调控因子，在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来，两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后，利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序(Large-scale sequencing)分析，可以从中获得物种全基因组水平的miRNA图谱，实现包括新miRNA分子的挖掘，其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

8、什么是miRNA测序

成熟的microRNA（miRNA）是17~24nt的单链非编码RNA分子，通过与mRNA相互作用影响目标mRNA的稳定性及翻译，最终诱导基因沉默，调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序，可以一次性获得数百万条microRNA序列，能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异，为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

9、什么是Chip-seq

染色质免疫共沉淀技术（ChromatinImmunoprecipitation，ChIP）也称结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

ChIP-Seq的原理是：首先通过染色质免疫共沉淀技术（ChIP）特异性地富集目的蛋白结合的DNA片段，并对其进行纯化与文库构建；然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上，从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

10、什么是CHIRP-Seq

CHIRP-Seq( Chromatin Isolation by RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针，把目标RNA拉下来以后，与其共同作用的DNA染色体片段就会附在到磁珠上，最后把染色体片段做高通量测序，这样会得到该RNA能够结合到在基因组的哪些区域，但由于蛋白测序技术不够成熟，无法知道与该RNA结合的蛋白。

11、什么是RIP-seq

RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术，是了解转录后调控网络动态过程的有力工具，能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来，然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用，但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物，RIP实验的优化条件与ChIP实验不太相同（如复合物不需要固定，RIP反应体系中的试剂和抗体绝对不能含有RNA酶，抗体需经RIP实验验证等等）。RIP技术下游结合microarray技术被称为RIP-Chip，帮助我们更高通量地了解癌症(cancer)以及其它疾病整体水平的RNA变化。

12、什么是CLIP-seq

CLIP-seq,又称为HITS-CLIP，即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联，以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后，回收其中的RNA片段，经添加接头、RT-PCR等步骤，对这些分子进行高通量测序，再经生物信息(bioinformation)学的分析和处理、总结，挖掘出其特定规律，从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。

13、什么是metagenomic（宏基因组）

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说，它具有众多优势，其中很重要的两点：(1) 微网络常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此做Metagenomics研究比做单个个体的研究更能发现其特性；(2) Metagenomics研究无需分离单个细菌，可以研究那些不能被实验室分离培养的微生物。

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学（又称元基因组学，环境基因组学，生态基因组学等），是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养，元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中，DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

14、什么是SNP、SNV（单核苷酸位点变异）

单核苷酸多态性singlenucleotide polymorphism，SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症(cancer)基因组变异时，相对于正常组织，癌症(cancer)中特异的单核苷酸变异是一种体细胞突变（somatic mutation），称做SNV。

15、什么是INDEL (基因组小片段插入）

基因组上小片段（>50bp）的插入或缺失，形同SNP/SNV。

16、什么是copy number variation （CNV）：基因组拷贝数变异

基因组拷贝数变异是基因组变异的一种形式，通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2，有些染色体区域拷贝数变成1或3，这样，该区域发生拷贝数缺失或增加，位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域，则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失，扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增，如A-C-B-C-D。

17、什么是structure variation （SV）：基因组结构变异

染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失（引起CNV的变化），染色体内部的某块区域发生翻转颠换，两条染色体之间发生重组（inter-chromosome trans-location）等。一般SV的展示利用Circos 软件。

18、什么 Read Contig Unigene

高通量测序时，在芯片上的每个反应，会读出一条序列，是比较短的，叫read，它们是原始数据；
有很多reads通过片段重叠，能够组装成一个更大的片段，称为contig；
多个contigs通过片段重叠，组成一个更长的scaffold；
一个contig被组成出来之后，鉴定发现它是编码蛋白质的基因，就叫singleton；
多个contigs组装成scaffold之后，鉴定发现它编码蛋白质的基因，叫unigene。

一个UniGene不一定代表一个contig，一个UniGene可有多个contig。

19、UniGene (Unique Gene Sequence Collection)

UniGene是以自动化的方式，对于每一个新进入到GeneBank的序列，进行序列相似性分析，如果可以找到可能是来自于同一个基因的基因组（cluster）,则将次序列归入到这一个基因组，如果找不到，则成立一个新的基因组。据估计，人类的基因约有八万到十万个左右，而在UniGenes中的所有人类序列中，经过上述方式加以分组之后，在1998您6月，已得到的超过四万三千个独特的基因组（unique gene clusters），其中大约六千余个具有已知的基因。

20、什么是soft-clipped reads

当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clipped reads，这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

21、什么是multi-hits reads

由于大部分测序得到的reads较短，一个reads能够匹配到基因组多个位置，无法区分其真实来源的位置。一些工具根据统计模型，如将这类reads分配给reads较多的区域。

22、什么是Scaffold

基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。

23、什么是Contig N50

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3...………Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

24、什么是Scaffold N50

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时，Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

25、什么是测序深度和覆盖度

测序深度（Sequencing Depth）：测序得到的碱基总量（bp）与基因组大小（Genome）的比值，它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系，测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体，如果采用的是双末端或Mate-Pair方案，当测序深度在10~15X以上时，基因组覆盖度和测序错误率控制均得以保证。

假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

denovo字面意思是全新，专业一点就是从头测序。详细点就是对未知基因组序列进行测序，利用生物信息(bioinformation)学分析手段，对序列进行拼接、组装，从而获得其基因组的图谱。测序的覆盖度（coverage）和测序的深度（depth）。对于coverage，由于大片段拼接的gap（空白或者缺口）、测序读长有限、重复序列等问题的存在，测序分析后组装得到的基因组序列通常无法完全覆盖所有区域，覆盖度就是最终得到的结果占整个基因组的比例。例如一个人的基因组测序，覆盖度为98.5%，那么说明该基因组还有1.5%的区域通过我们的组装和分析无法得到；对于depth，就是被测基因组上单个碱基被测序的平均次数，比如某样本的测序深度为30X，那么就是说该样本的基因组上每一个单碱基平均被测序（或者说读取）了30次，注意，是平均。当然了，depth也有最大和最小值，这个都可以由信息分析得到。其实也就是为了提高准确率什么的，一般15X就差不多了。

26、什么是RPKM、FPKM

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:

每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。是将map到基因的read数除以map到genome的所有read数(以million为单位)与RNA的长度(以KB为单位)。

RNA-seq是透过次世代定序的技术来侦测基因表现量的方法，在衡量基因表现量时，若是单纯以map到的read数来计算基因的表现量，在统计上是一件相当不合理事，因为在随机抽样的情况下，序列较长的基因被抽到的机率本来就会比序列短的基因较高，如此一来，序列长的基因永远会被认为表现量较高，而错估基因真正的表现量，所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量

2013年09月05日 - seemefly - seemefly

举例：比如对应到该基因的read有1000个，总reads个数有100万，而该基因的外显子总长为5kb，那么它的RPKM为：10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者：1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。

FPKM(fragments per kilobase of exon per million fragments mapped).每1百万个map上j的reads中map到外显子的每1K个碱基上的reads个数。FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments，而RPKM计算的是reads。Fragment比read的含义更广，因此FPKM包含的意义也更广，可以是pair-end的一个fragment，也可以是一个read。

2013年09月05日 - seemefly - seemefly

27、什么是转录本重构

用测序的数据组装成转录本。有两种组装方式：1，de-novo构建； 2，有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下，将有overlap的reads连接成一个更长的序列，经过不断的延伸，拼成一个个的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有参考基因组重构，是指先将read贴回到基因组上，然后在基因组通过reads覆盖度，junction位点的信息等得到转录本，常用工具包括scripture、cufflinks。

28、什么是genefusion

将基因组位置不同的两个基因中的一部分或全部整合到一起，形成新的基因，称作融合基因，或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。

29、什么是表达谱

基因表达谱(geneexpression profile)：指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

30、E-value

EXPECT

E期望值（E-value）这个数值表示你仅仅因为随机性造成获得这一alignment结果的可能次数。这一数值越接近零，发生这一事件的可能性越小。从搜索的角度看，E值越小，alignment结果越显著。你可能会想为搜索设定一个期望值阀值（EXPECT），例如Defaults值设为10。这一设置则表示联配结果中将有10个匹配序列是由随机产生，如果联配的统计显著性值（E值）小于该值（10），则该alignment将被检出，换句话说，比较低的阀值将使搜索的匹配要求更严格，结果报告中随机产生的匹配序列减少。

E=kmne^（-λs）

转载于:https://www.cnblogs.com/daimakun/p/5075595.html