第一代基因测序信号处理技术
按信号处理流程,完整的阐述碱基信号的处理方法,并在实践中进行了应用,仅供大家参考。
测序仪输出信号特点和问题
1.四个通道输出四种碱基的峰形曲线;
2.每个碱基峰形的出峰时间(峰位)表示了DNA片段的长度;(参考Sanger测序原理)
3.不同通道碱基峰之间的间距是变化的,可能出现重叠、错位,取决于仪器性能好坏;
4.同一个通道碱基峰之间存在峰形重叠
5.受噪声信号干扰,小信号碱基峰信噪比较差;
信号预处理
有效信号提取
测序仪输出原始信号起始段是无效信号,此时DNA片段尚未到达检测窗口;尾部也同样存在无效信号。因此,首先需要提取图中黑色虚框中的有效信号。可以根据信号强度在此位置的突变进行判定,此类方法较多,可以选择合适算法自适应提取此段有效信号。
基线扣除
这一步有时候并不需要,主要看测序仪端输出信号的质量。基线漂移扣除方法有:线性基线扣除法、滑动窗口极小值法、小波系数重构等。
信号平滑
信号平滑是根据曲线峰形特点选取合适的滤波系数进行平滑处理,由于碱基峰形近似高斯峰。因此可以采用高斯滤波,根据碱基峰宽选择滤波系数。也可以采用小波滤波、SG滤波以及其他低通滤波算法,不管选择那种方法,其目标是提高平滑度,但不能造成峰形失真。
峰形处理技术
封顶补偿
封顶主要是AD采样芯片选择不合理造成,因此在信号浓度正常范围条件下,是不会出现封顶现象的。因此在测序仪各项指标调节合理的情况下,这个步骤可以省去。
封顶补偿方法可以采用高斯峰拟合逼近来重构封顶削去部分的峰形。但是补偿对峰高的准确性一定程度上会丢失,幸好碱基峰识别时,峰高小范围的误差影响较小。
峰形分离度增强
峰形分离是碱基峰识别关键一步,上图原始碱基峰曲线峰形重叠严重,很难区分峰形个数以及峰位值,下图是经过峰形分离度增强处理后的峰形曲线(图中峰位也进行了重新排序)。一般可以通过峰宽初步判定碱基峰个数,再通过多个高斯峰拟合重构碱基峰。
碱基峰搜索及自适应判定阈值提取
在碱基峰搜索时,首先需要确定碱基峰高的判定阈值。从目前测序的波形看往往起始碱基峰高比较大(这个跟试剂和仪器性能有关,不具有普遍性)。因此,在不同峰位区间峰高的判定阈值必然是不同的,需要得到随峰高浮动的趋势线。由于碱基峰高具有一定的随机性,这个与ddNTP是随机结合的特点有关。因此,实际阈值需要在趋势线的基础上乘上一定的系数来得到,该系数值可以通过峰高分布的95%置信区间来确定。
碱基序列识别技术
碱基峰位漂移修正
AGCT在DNA上的排列顺序可以视为等间距排列,但在四个通道上,碱基峰的出峰时间顺序上可能存在间距变大、变小、两个碱基重叠出现、两个碱基错位出现等现象。虽然不影响碱基类型识别,但会影响碱基序列识别。
碱基峰位漂移修正的目标是保证碱基峰位尽可能等间距分布,因此,在峰位优化时,将AGCT峰位差作为优化输入序列,优化目标为峰位差的方差最小化。输入变量和目标函数都有了,就差优化算法了,大家可以参考相关文献,或者自己建模,我就到此为止了。
碱基序列增删处理
由于前面碱基峰搜索中难免会遗漏个别小碱基峰或者引入干扰峰,因此,最后还需要进一步过滤,将漏的、假的重新筛查一遍,尽可能补充完整。
在假峰剔除处理中,主要依赖峰形质量系数进行判定此峰可能为假峰,然后在假峰区间范围内进一步验证。
在漏峰增加处理中,主要利用峰位差进行判定,如果峰位差和周围几个相差太多,则认为可能有漏峰存在,然后在此区间内容进一步搜索验证。