python正则表达式重复_Python正则表达式:如何重复模式的重复?

我正在寻找一长串的DNA核苷酸,并寻找以起始代码“AAA”开始,以终止代码“CCC”结束的序列。由于核苷酸是三胞胎,所以我发现的每个序列的开始和结束之间的核苷酸数量必须是三的倍数。

例如,“aaaggccc”是有效序列,但“AAAGCCC”不是。

此外,在每一个停止代码之前,我想找到一个特定阅读框的最长链。

例如,如果DNA是“AAAGGGAAACCC”,那么“AAAGGGAAACCC”和“AAACCC”在技术上都是有效的,但是因为它们共享相同的停止代码实例,所以我只想要最长的DNA链“AAAGGGAAACCC”。此外,如果我的链是“aaaaggcccc”,则必须返回“aaaaggcccc”和“aaaggccccc”,因为它们位于不同的读取帧中(一个读取帧是mod 3,另一个是mod 1)

虽然我认为我有代码来搜索满足3倍要求且不重叠的字符串,但我不确定如何实现保持相同阅读框架的第二个条件。下面的代码只返回不重叠但不区分读取帧的最长字符串,因此在上面的示例中,它将捕获“AAAAGGCCC”而不是“aaaggccc”:match = re.finditer(r"AAA\w{3}{%d}BBB$"% (minNucleotide-6, math.ceil((minNucleotide-6)/3))

很抱歉,你说得太多了,谢谢你看了一眼!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值