如何过滤freebayes得到原始vcf文件

变异检测算法的核心就是从尽可能找到真实的变异,降低假阳性。尽管目前测序仪器的准确性可以达到99.999%,似乎很高的样子,但是对于高通量测序而言,这意味着在100,000个碱基中就可能出现一个错误,那么freebayes如何保证自己结果的可靠性?

freebayes基于贝叶斯公式

img_2faecc734c03cc2c5f3129b6f2e766a4.jpe
贝叶斯公式

简单的说,当一个变异如果只出现在一条链上,或者是某一个位置上,那么这个位点很有可能是高通量测序时引入的偏误。

img_cca548eca55d81122e837beeab2f71e3.jpe
可能位点

先验模型并不能解决所有错误,freebayes初步会得到海量的变异位点,这肯定是不能直接用于最后分析,需要进一步过滤。过滤有两种策略,一种是硬过滤(hard filter),一种则是使用机器学习的方法,比如说支持向量机。

Hard filters的策略很简单,就是按照我们所认为的好去过滤,

  • 这个变异的信度要高, QUAL>N
  • 有足够多的深度支持,DP >N
  • 变异应该出现在两条链上, SAF >0 & SAR>0
  • 变异出现在read的中部, RPL>0 & RPR >0

RPL(Reads Placed Left), RPR(Reads Placed Right)
SAF(Number of alternate observations on the forward strand), SAR(Number of alternate observations on the reverse strand)

由于每一个物种基因组性质都不太一样,那么应该设置什么样标准比较好呢?

如果是自然变异, 那么在大多数生物中,转换(transitions, ts, A-T<->G-C)的发生的概率颠换应该大于颠换(transversion, tv,T-A<->G-C). 在人类中,ts/tv约等于2, 在线粒体中, ts/tv有可能大于20。 tv/ts信息可以用vt peek看。

使用机器学习的方法有点难度,需要你提供一个高信度的变异集用来训练分类器,属于比较高级的模块。

参考资料

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值