Rosalind第25题——ros_bio25_LONG

最新推荐文章于 2021-08-17 22:40:00 发布

他城她糖i

最新推荐文章于 2021-08-17 22:40:00 发布

阅读量102

点赞数

分类专栏： ROSALIND答案

本文链接：https://blog.csdn.net/qq_45380519/article/details/119549959

版权

fasta 序列处理重叠序列拼接生物信息学

关键词由CSDN通过智能技术生成

ROSALIND答案专栏收录该内容

35 篇文章 7 订阅

订阅专栏

如果第一次阅读，请查看写在前面

import re

with open("../examples/ros_bio25_LONG.txt") as f:
    file = f.readlines()

#提取fasta文件
table = {}
for line in file:
    line = re.sub(r'\n', '', line)
    m = re.match('^>.*', line)
    if m:
        name = m.group()
        table[name] = ''
    else:
       table[name] += line
seq = []
for value in table.values():
    seq.append(value)

#寻找重叠序列
sequence = []
for n in range(len(seq)-1):
    front_seq = seq[n]
    rear_seq = seq[n+1]
    overlap = []
    i = 0
    for i in range(len(front_seq)):
        j = i + 1
        for j in range(len(front_seq)+1):
            if rear_seq.find(front_seq[i:j]) == -1:
                break
            else:
                overlap.append(front_seq[i:j])
    sequence.append(max(overlap, key=len))

#记录开始和结尾序列
front = seq[0].replace(sequence[0], '')
rear = seq[-1].replace(sequence[-1], '')

#删去overlap中重复字符串
i = 0
while i < len(sequence):
    temp = sequence[-1]
    if sequence[i] == temp:
        break
    if sequence[i] in sequence[i+1]:
        sequence.pop(i)
    elif sequence[i+1] in sequence[i]:
        sequence.pop(i+1)
    else:
        i += 1

#拼接
contigs = front + ''.join(sequence) + rear
print(contigs)