基因检测-外显子链接问题

本文探讨了在基因组序列中寻找与目标蛋白质最匹配的外显子的问题,提出使用局部相似性方法来识别候选外显子。通过将外显子结构化为权重区间,并定义了非重叠区间的最大链求解算法,旨在找到最大的非重叠外显子集合。EXONCHAINING算法用于解决此问题,通过计算最长路线确定最优解。
摘要由CSDN通过智能技术生成

人类大部分基因组序列都是被垃圾DNA序列分隔成一段段,给定一个已知的目标蛋白质和基因组序列,在该基因组序列中找出一组子字符串(候选外显子),使得其拼接(剪接)与目标蛋白质最匹配(即去掉垃圾DNA序列)。一个强力方法是寻找基因组序列与目标蛋白质序列间的所有局部相似性。若第一个取自基因组序列的子字符串展示了充分相似性于目标蛋白质,那么这个子字符串可被认为是一个推定的外显子。

将推定外显子结构化为基因组序列中的赋权区间,它可用三个参数(l、r、w)来描述,l、r分别是推定的外显子的左边、右边的位置,w为其权重。权重w可反该区间是一个外显子的可能性。

链是不重叠赋权区间的任一集合,一个链的总权重是该链中所有区间的权重之和。

 

本博客所有内容是原创,如果转载请注明来源

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随着大量的基因组DNA序列数据被获得,它对了解基因越来越重要(基因组DNA的一部分,是负责合成蛋白质的)。总所周知,在基因组序列中,由于存在垃圾的DNA中断基因的编码区,真核生物(相对于原核生物)的基因链更加复杂。也就是说,一个基因被分成几个编码片段(称为外显子)。虽然在蛋白质的合成过程中,外显子的顺序是固定的,但是外显子的数量和长度可以是任意的。 大多数基因识别算法分为两步:第一步,寻找可能的外显子;第二步,通过寻找一条拥有尽可能多的外显子基因链,尽可能大地拼接一个基因。这条链必须遵循外显子出现在基因组序列中的顺序。外显子i在外显子j的前面的条件是i的末尾必须在j开头的前面。 本题目的目标是,给定一组可能的外显子,找出一条拥有尽可能多的外显子链,拼接成一个基因。 输入: 给出几组输入实例。每个实例的开头是基因组序列中可能的外显子数n(0<n<1000).接着的n行,每行一对整数,表示外显子基因序列中的起始和结束位置。假设基因组序列最长为50000.当一行是0时,表示输入结束。 输出: 对于每个实例,找出最可能多的外显子链,输出链中的外显子,并占一行。假如有多条链,但外显子数相同,那么输出其中任意一条。 输入样列: 6 340 500 220 470 100 300 880 943 525 556 612 776 3 705 773 124 337 453 665 0 输出样列: 3 1 5 6 4 2 3 1 提示:可以用贪心或动归来做。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值