读取txt文件,将每一个簇按照ID互相组合,写入csv文件。
这是为了记录每一个蛋白和哪些蛋白具有100%的相似性,是一个全排列的问题。
import csv
f = open('seq_sim.csv', 'w', encoding = 'utf-8',newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['100% Identity Protein ID', 'Database ID', 'Name', 'Organism'])
with open('cd3.txt', 'r') as f:
lines = f.readlines()
for line in lines:
if line[0] != '>':
list = line.split()
for i in range(len(list)):
for j in range(len(list)):
if i == j:
continue
csv_writer.writerow([list[i], list[j]])
print(list[i], '***', list[j])
其中newline=’’,将空行去掉了,具体可以看下面的格式,因为我用的是Python3,所以使用的是这种方法,python2是将’w‘改为了’wb‘。
参考博客:
https://blog.csdn.net/lbj1260200629/article/details/89600055