我有一个蛋白质序列文件如下:>102L:A MNIFEMLRIDEGLRLKIYKDTEGYYTIGIGHLLTKSPSLNAAAKSELDKAIGRNTNGVITKDEAEKLFNQDVDAAVRGILRNAKLKPVYDSLDAVRRAALINMVFQMGETGVAGFTNSLRMLQQKRWDEAAVNLAKSRWYNQTPNRAKRVITTFRTGTWDAYKNL -------------------------------------------------------------------------------------------------------------------------------------------------------------------XX
第一个是序列的名称,第二个是实际的蛋白质序列,第一个是指示是否有缺失坐标的指示器。在这种情况下,注意末尾有两个“X”。这意味着序列的最后两个余数是“NL”,在本例中是缺少坐标的。在
通过使用Python编写代码,我希望生成一个如下所示的表:序列的名称
缺失坐标总数(即X的数量)
这些缺失坐标的范围(即X的位置范围)
4) 序列的长度
5) 实际顺序
因此,最终结果应如下所示:
^{pr2}$
到目前为止我的代码是这样的:total_seq = []
with open('sample.txt') as lines:
for l in lines:
split_list = l.split()
# Assign the list number
header = split_list[0] # 1
seq = split_list[1] # 5
disorder = split_list[2]
# count sequence length and total residue of missing coordinates
sequence_length = len(seq) # 4
for x in disorder:
counts = 0
if x == 'X':
counts = counts + 1
total_seq.append([header, seq, str(counts)]) # obviously I haven't finish coding 2 & 3
with open('new_sample.txt', 'a') as f:
for lol in total_seq:
f.write('\n'.join(lol))
我是python新手,有人能帮忙吗?在