我正在寻找一长串的DNA核苷酸,并寻找以起始代码“AAA”开始,以终止代码“CCC”结束的序列。由于核苷酸是三胞胎,所以我发现的每个序列的开始和结束之间的核苷酸数量必须是三的倍数。
例如,“aaaggccc”是有效序列,但“AAAGCCC”不是。
此外,在每一个停止代码之前,我想找到一个特定阅读框的最长链。
例如,如果DNA是“AAAGGGAAACCC”,那么“AAAGGGAAACCC”和“AAACCC”在技术上都是有效的,但是因为它们共享相同的停止代码实例,所以我只想要最长的DNA链“AAAGGGAAACCC”。此外,如果我的链是“aaaaggcccc”,则必须返回“aaaaggcccc”和“aaaggccccc”,因为它们位于不同的读取帧中(一个读取帧是mod 3,另一个是mod 1)
虽然我认为我有代码来搜索满足3倍要求且不重叠的字符串,但我不确定如何实现保持相同阅读框架的第二个条件。下面的代码只返回不重叠但不区分读取帧的最长字符串,因此在上面的示例中,它将捕获“AAAAGGCCC”而不是“aaaggccc”:match = re.finditer(r"AAA\w{3}{%d}BBB$"% (minNucleotide-6, math.ceil((minNucleotide-6)/3))
很抱歉,你说得太多了,谢谢你看了一眼!