第一代基因测序信号处理技术

第一代基因测序信号处理技术

按信号处理流程,完整的阐述碱基信号的处理方法,并在实践中进行了应用,仅供大家参考。

测序仪输出信号特点和问题

1.四个通道输出四种碱基的峰形曲线;
2.每个碱基峰形的出峰时间(峰位)表示了DNA片段的长度;(参考Sanger测序原理)
3.不同通道碱基峰之间的间距是变化的,可能出现重叠、错位,取决于仪器性能好坏;
4.同一个通道碱基峰之间存在峰形重叠
5.受噪声信号干扰,小信号碱基峰信噪比较差;

信号预处理

有效信号提取

在这里插入图片描述
测序仪输出原始信号起始段是无效信号,此时DNA片段尚未到达检测窗口;尾部也同样存在无效信号。因此,首先需要提取图中黑色虚框中的有效信号。可以根据信号强度在此位置的突变进行判定,此类方法较多,可以选择合适算法自适应提取此段有效信号。

基线扣除

在这里插入图片描述
这一步有时候并不需要,主要看测序仪端输出信号的质量。基线漂移扣除方法有:线性基线扣除法、滑动窗口极小值法、小波系数重构等。

信号平滑

在这里插入图片描述
信号平滑是根据曲线峰形特点选取合适的滤波系数进行平滑处理,由于碱基峰形近似高斯峰。因此可以采用高斯滤波,根据碱基峰宽选择滤波系数。也可以采用小波滤波、SG滤波以及其他低通滤波算法,不管选择那种方法,其目标是提高平滑度,但不能造成峰形失真。

峰形处理技术

封顶补偿

在这里插入图片描述
封顶主要是AD采样芯片选择不合理造成,因此在信号浓度正常范围条件下,是不会出现封顶现象的。因此在测序仪各项指标调节合理的情况下,这个步骤可以省去。
封顶补偿方法可以采用高斯峰拟合逼近来重构封顶削去部分的峰形。但是补偿对峰高的准确性一定程度上会丢失,幸好碱基峰识别时,峰高小范围的误差影响较小。

峰形分离度增强

在这里插入图片描述
峰形分离是碱基峰识别关键一步,上图原始碱基峰曲线峰形重叠严重,很难区分峰形个数以及峰位值,下图是经过峰形分离度增强处理后的峰形曲线(图中峰位也进行了重新排序)。一般可以通过峰宽初步判定碱基峰个数,再通过多个高斯峰拟合重构碱基峰。

碱基峰搜索及自适应判定阈值提取

在这里插入图片描述
在碱基峰搜索时,首先需要确定碱基峰高的判定阈值。从目前测序的波形看往往起始碱基峰高比较大(这个跟试剂和仪器性能有关,不具有普遍性)。因此,在不同峰位区间峰高的判定阈值必然是不同的,需要得到随峰高浮动的趋势线。由于碱基峰高具有一定的随机性,这个与ddNTP是随机结合的特点有关。因此,实际阈值需要在趋势线的基础上乘上一定的系数来得到,该系数值可以通过峰高分布的95%置信区间来确定。
在这里插入图片描述

碱基序列识别技术

碱基峰位漂移修正

AGCT在DNA上的排列顺序可以视为等间距排列,但在四个通道上,碱基峰的出峰时间顺序上可能存在间距变大、变小、两个碱基重叠出现、两个碱基错位出现等现象。虽然不影响碱基类型识别,但会影响碱基序列识别。
在这里插入图片描述
碱基峰位漂移修正的目标是保证碱基峰位尽可能等间距分布,因此,在峰位优化时,将AGCT峰位差作为优化输入序列,优化目标为峰位差的方差最小化。输入变量和目标函数都有了,就差优化算法了,大家可以参考相关文献,或者自己建模,我就到此为止了。

碱基序列增删处理

由于前面碱基峰搜索中难免会遗漏个别小碱基峰或者引入干扰峰,因此,最后还需要进一步过滤,将漏的、假的重新筛查一遍,尽可能补充完整。
在假峰剔除处理中,主要依赖峰形质量系数进行判定此峰可能为假峰,然后在假峰区间范围内进一步验证。
在漏峰增加处理中,主要利用峰位差进行判定,如果峰位差和周围几个相差太多,则认为可能有漏峰存在,然后在此区间内容进一步搜索验证。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值