我们这个节目,主要是给大家介绍基因组
学,和临床分子诊断的最新技术进展
今天,我们会和大家谈一下人外显子组
测序的方法原理
和它能够给我们带来哪些有用的生物信息
那我们还是分两个部分来介绍
第一个部分呐,介绍外显子测序的技术
方法
第二个部分,我们来介绍外显子测序可以
得到哪些有用的生物信息
那么,我们先来说外显子测序的工作原理
我们先来看这张图
外显子测序的核心技术呐,是这(些)个
针对人外显子序列设计的捕获探针库
那么这些探针的序列呐,都和人外显子
的DNA序列相互补
在实验过程中呐,它可和人的外显子DNA
序列进行杂交结合
同时呐,这些探针都标上了生物素
有了这个捕获试剂盒呐,就可以进行建库、
和捕获了
第一步呐,是先把基因组DNA进行
超声打碎,建成DNA文库
第二步呐,是把建好的文库和探针库
进行杂交
杂交过程中,通过核酸序列的
互补结合的原理,探针会和
目标DNA片段进行结合
然后呐,再用结合了链霉亲和素的
磁珠,与这个杂交混合液呐进行混合
因为链霉亲合素是会和生物素
牢固结合的
这样,就把我们要捕获的外显子目标
片段,通过探针,间接地结合到了
磁珠上
然后呐,通过磁铁把这些磁珠
给吸附下来
而把上清液呐给去掉
这样呐,也就把没有结合的DNA片段
给洗掉了
再接下来,用洗脱液,把我们要的
DNA文库从磁珠上给洗脱下来
那么这些文库呐,再经过PCR扩增,
就可以上HiSeq测序仪进行测序了
测完序以后,就可以进行生物信息学的
处理了
那么先是把这些测序的DNA片段比对到人的
基因组上
然后呐,把这些比对到基因组的序列进行
突变分析
一般用Agilent SureSelect 50M的试剂盒
进行外显子建库、捕获
再用HiSeq 2500 V4 PE125的方法进行测序
测10个G的数据量
大约可以得到95X的“有效测序深度”
我们说的有效测序深度(effective
sequencing depth)是相对于总测序深度
来说的
总的测序深度呐,是把所有测得的
数据(量)去除以目标区域的大小
举例来说,用Agilent 50M的这个试剂盒,
我们测到10个G的数据
去除以目标区域的50M的大小,那么得到
的是200X的测序深度(10G/50M = 200X)
但是这个200X的测序深度,对于做生物
信息学分析来说呐,并没有太大的实在意义
因为当中还要扣掉许多无用的数据,才能
得到有效的数据
在外显子测序中,要扣掉4种因素引起的
无效数据
第一个影响因素呐,就是因为杂交捕获的
过程它不是十分精确的
基因组中的有许多序列,
是和外显子有一定的同源性的
那么这些片段呐,在杂交
过程当中,也会被杂交
捕获下来
而这些片段呐,
不是基因的外显子
所以,我们在分析过程
当中,首先要把这些
序列给去除掉
第二个影响因素呐
是捕获下来的一个片段,很可能它
(只有)一部分的序列是落在目标区域
还有一部分序列呐,是突出在
目标范围之外的
那么,这部分突出来的序列呐,
它不是目标区域,
所以,它也不计入外显子测序的
“有效测序深度”
这个落在目标区的数据,占全部被测到的
数据的比例,
我们用一个专业术语来称乎它,叫作
“捕获效率”(capture efficiency)
那么Agilent SureSelect这个试剂盒呐,
它的捕获效率,大约是65~70%
第3个影响有效数据比例的因素呐,是
Duplication
那么所谓duplication呐,就是建库过程当
中它的最后一步,是通过PCR扩增
把原始的模板,扩增出几百倍来
那么由同一个模板分子扩增出来的子文库
分子呐,是长得一模一样的
那么这些多出来的这些分子,如果被重复
地测到
它并不能为我们提供太多有用的生物信息
所以,我们在生物信息分析的过程当中,
我们要去掉这些重复的片段
那么要去掉这些重复的片段
我们判断的依据是:2个DNA分子它们的
5'起始位置、和3'的结束位置,完全
一模一样
那么我们就认定这2个分子,是从同一个
母分子,PCR出来的(2个)子分子
然后呐,我们会比较这2个序列的数据质量
留下那个数据质量比较高的,去掉那个
数据质量比较低的
这也就是我们通常所说的“去Duplication"
的过程
用Agilent SureSelect试剂盒进行建库、
捕获,实测10个G的数据
我们发现duplication大约在5%左右
那么,我们说明一下,duplication的比例
不是恒定不变的
而是会随着测序深度的增加、而增加
因为上机(测序)的文库是经过PCR扩增
的文库
随着测序量增大,那么测到源自同一个模板
的PCR子分子的概率呐,就会提高
第4个影响因素呐,是目前主流的测序方法
是HiSeq V4 PE125这种方法
也就是:双端各测125个碱基
那么Agilent的建库方法中当呐,插入片段
是150~200BP,这样一个大致范围的这些
片段
那么它的平均片段长度呐,是180BP
那么我们用双端125的方法来测序
就会导致左边的这个reads(序列)和
右边的这个reads(序列),读到当中,
会有一段,大概会有70BP的交叠
那这个70BP的交叠的序列,是冗余的序列
也就是说,我们读了250个BP的序列,但是
其中大约有效的呢,是180个(BP)
有70个BP呐,是冗余的
综合上述4项因素
我们可以看到,用Agilent SureSelect
50M的这个捕获试剂盒进行建库、捕获
并且用HiSeq V4 PE125的测序方法来测序
测10个G的数据量
那么可以得到,大约95X的有效测序深度
(10 * 0.7 * 0.95 * 180 / 250 / 50 = 95)
除了测到的有效数据量之外,还有一个
因素会影响到后面的分析
这就是Reads的分布均匀情况
也就是说目标区域的每个碱基被覆盖的
深度的均匀性
那么这个结果呐,是越均匀越好
科学家经过实测
发现Agilent的SureSelect、和Roche的
Nimblegen,这两个捕获试剂盒
所得到的覆盖均匀性是比较好的
外显子测序,可以测Germline突变
(胚胎形成时就带有的突变),也
可以测体细胞突变(Somatic Mutation)
但是呐,随着Illumina推出HiSeq X10
测序仪
把人全基因组测序的直接成本降到1000
美元以下
那么Germline水平的突变呐,已经很少
用外显子来测了
目前,外显子测序的主要优势就体现在
肿瘤基因测序方面
之所以外显子测序在肿瘤基因测序方面有
优势呐
这是因为外显子测序,它的测序深度,
可以比较容易地做到“深度”测序
那么呐,它可以比较轻易地达到100X、
200X,甚至更深的测序深度
这个呐,就有利于测到 low allele
frequency (低等位基因频名优新)的
体细胞突变
因为肿瘤中的突变呐,往往都是 low
allele frequency 的体细胞突变
所以,外显子组测序就在测肿瘤基因组
突变方面,显出比较明显的优势来
那么如果是要测肿瘤中的体细胞突变呐
一般是拿手术切下来的肿瘤组织DNA、和
病人外周血中的白细胞基因组DNA,进行
外显子测序
一般肿瘤的测100~200X的深度
白细胞的(DNA)测100X的深度
从白细胞DNA得到这个病人的Germline
基因组序列
拿肿瘤的DNA序列与之做对比,找出其中
的体细胞突变
外显子组测序,主要能够得到的信息是
点突变,也就是SNP信息
和插入缺失突变,也就是Indel信息
这张图呐,就是找到的体细胞突变的
泡泡图
在这个泡泡图中,突变频率越高的基因,
就画一个大泡泡,放在图的中间
突变频率低一点的基因,就画一个相对
小一点的泡泡,延着逆时针排列
再低频的突变,再画一个再小的泡泡,
再在外面再排列下去
依此类推,就得到这样一个泡泡图
泡泡图有利于我们非常直观地看到样本
中体细胞突变的情况
找到突变之后,就可以进一步地做GO和
Pathway分析
关于GO和Pathway的定义,我们已经在前一
期讲RNA-seq的节目当中,给大家介绍过了
想要了解的朋友可以在优酷中找一下:
【陈巍学基因】视频7:《RNA-seq方法
和应用》这一集
自己去看一下
那么,我们来说GO分析
这张图是GO分析的结果
这是根据突变的点在肿瘤中的富集的情况
做的分析
分成“细胞组件”、“分子功能”、
和“生物过程”3个大类,进行展示
柱子越高,则表示这个亚类当中突变越多
这是有向无环图
它把突变进一步一步富集到更精细的
小概念当中进行展示
这个图中,是越向下,它的功能就划分得
越精细
同时颜色越深的块块,则表示突变在
这个小概念中富集程度越高
这是Pathway的KEGG富集分析
它吶,可以帮助我们看到哪些通路发生了
显著的变化
更深一步的分解分析
则让我们深入地看到突变的基因在整个
通路中所处的节点
让我们更好地探索突变和病变之间的关系
我们要说明:在外显子测序的数据分析
当中,对基因组的结构变异是不敏感的
不敏感的原因是外显子测序,只测了
基因组上很小一部分区域
这个比例小到了只有1~2%
所以当结构变异的断点,不落在外显子
区域的时侯呐
外显子测序是看不到这些断点的
所以我们说:外显子测序对基因组的结构
变异--SV(Structure Variation)呐,
是不敏感的
外显子测序对拷贝数变异(CNV,copy
number variation),不是很敏感
不敏感的原因呐,是因为杂交捕获过程啊,
是一个含了很高偶然性的过程
也就是说,一个外显子片段上,它有多少
个reads(序列)被捕获下来,样本和样本
之间是有很大差异的
或者说,它的覆盖度,本来就是忽高忽低
的
因为有这种忽高忽低呐
这就导致:一个外显子上测到的Reads数
变高,或者变低
我们很难判断,是因为这种偶然性呐,
还是因为拷贝数发生了变异
所以,外显子测序,对于小片段的拷贝数
变异,它本身是不敏感的
但是,如果基因组上发生了大片段的
拷贝数变异
比如说,长度在5M(5M base pair)以上的
片段发生了拷贝数变异
那么外显子测序呐,是可以发现的
这是因为这样长的片段当中呐,一般含有
多个外显子
当多个外显子的测序Reads数都发生了
改变
那么,它就会有统计上的显著性
通过这种统计上的显著性,我们可以来
判断:基因组上的确发生了拷贝数变异
因为外显子组测序对结构变异和拷贝数
变异不敏感
所以,在实际的肿瘤基因测序中呐,
科学家往往是这样做的
用全基因测序来找到肿瘤样本中的结构
变异(SV)和拷贝数变异(CNV)
再用来外显子组测序来找肿瘤样本中的、
低频的SNP和Indel体细胞突变
今天,我们在讲外显子组测序的同时呐
我们就顺带说一下针对某些疾病所设计的
捕获Panel测序
所谓Panel,往往是指对若干个基因设计
一个捕获试剂盒
诊断公司为诊断特定的疾病,设计了许多
特定的、针对性的Panel
例如著名的肿瘤诊断公司Foundation
Medicine
就设计了“Foundation One”这个Panel
它(Foundation One)是针对实体瘤的
一个Panel
这个Panel包含了315个经常发生突变
的肿瘤相关基因
还包含了28个经常发生重排的基因
这一类的Panel,它的建库、捕获、和测序
原理,与外显子组测序是完全一样的
但是因为它所选择的基因数远少于外显子
所以就可以用较少的测序量得到非常深的
测序深度
同时因为测序数据量较小
所以数据分析的难度也会小许多
耗时也会更短
这对于临床诊断所需的快速响应呐,是有
十分多的好处
以上呐,就是本期节目的全部内容
谢谢您的收看!我们下期节目再见