新算法快速定位基因异常

一种新研发的快速算法,能够有效定位核苷酸短串联重复信息来处理基因测序数据。

基因测序技术发展到今天,对测序数据的后续处理已经日益取代测序本身成为业界关注的焦点。大体上说,在测序完成后都要将测得的基因序列数据,与人类基因组工程(Human Genome Project)的标准参照作比照。目前,在研究领域中,常用的方法是比较单核苷酸多态性(SNPs)差异,这种方法能够有效鉴别出等位基因上的转换和颠换变异,由于SNPs通常只涉及到两种碱基,在筛选处理中往往不用分析片段的长度,有利于数据处理的快速化和规模化。

而另一种形式德基因信息差异---短串联重复(Short Tandem Repeats,STR)尽管在族谱学和法医学中应用广泛,在基因测序数据处理中却有意无意地为研究人员所忽视了。STR是指两个到多个核苷酸的重复排列,且不同的重复序列相邻的形式。这种重复与亨廷顿舞蹈症(Huntington's disease)和X染色体易裂症(fragile X syndrome)有关。而目前,大多数STR信息图已经通过毛细管电泳法完成。

麻省理工学院的研究人员开发出一种名为lobSTR的新算法,将STR信息对基因测序信息进行数据处理。而由于目前大多数常用高通量下一代全基因组测序法都无法解读出STR的排布信息。研究人员自己开发出了一套新方法来对STR进行校准。反映这一团队研究成果的论文的第一作者是梅丽莎·吉姆莱克(Melissa Gymrek),文章发表在《基因组研究》杂志上。

这一算法首先通过傅立叶变换法(Fourier transform)从序列库中寻找并标示出STR的序列,然后对序列信息进行快速校准,同时使用非重复序列的接合部份作为向导,向参照系基因组序列发出信号,从而确定STR的发生位置和长度。最后,通过统计学习方法来最大限度地扫描出对PCR将DNA放大所产生的无用数据。

麻省理工学院的雅尼夫·厄里奇(Yaniv Erlich)表示,这种lobSTR算法对于Illumina测序机生成的的数据效果最好。STR可以产生更长的同聚物序列,而这用Ion Torrent和454公司的测序机很难检测到。

lobSTR算法的速度也是其优势所在。它运行时间大概仅需几个小时,比BWA的比对算法快20倍,比Bowtie的算法也快了2.5倍。厄里奇希望这种快速的算法能够作为目前主流校准方法的一个重要补充。

“人们之前总有些忽视STR,而现在开始逐步意识到能够利用STR的方式有很多。”厄里奇说,“这一算法开启了基因组信息的全新层面。”

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值