fasta转csv——正则表达式高效实现

最新推荐文章于 2024-07-17 21:04:45 发布

Sakura樱_子于

最新推荐文章于 2024-07-17 21:04:45 发布

阅读量496

点赞数 1

本文链接：https://blog.csdn.net/SakuraHimi/article/details/115429564

版权

import pandas as pd
import re
import timeit

'''记录代码执行时间 1/2'''
start = timeit.default_timer()

'''正则表达式'''
pattern_title = re.compile(r'^>.*', re.M)
pattern_n = re.compile(r'\n')

'''读取文件内容'''
with open('文件名.fasta', 'r', encoding='utf-8') as f:
    text = f.read()

'''按标题行切分'''
data = re.split(pattern_title, text)
'''去除所有换行符'''
data2 = [re.sub(pattern_n, '', i) for i in data]

'''保存文件，此处可根据需要自由发挥'''
data2 = pd.DataFrame(data2[1:]) #第一行是空行，需要去掉
data2.to_csv('新的文件名.csv', header=False, index=False)
print(len(data2))

'''记录代码执行时间 2/2'''
end = timeit.default_timer()
time = end - start
print(time)

75776
1.1467811

7万条fasta数据完成转换需要1秒，效率尚可。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Sakura樱_子于

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
fasta转csv——正则表达式高效实现

import pandas as pdimport reimport timeit'''记录代码执行时间 1/2'''start = timeit.default_timer()'''正则表达式'''pattern_title = re.compile(r'^>.*', re.M)pattern_n = re.compile(r'\n')'''读取文件内容'''with open('文件名.fasta', 'r', encoding='utf-8') as f: tex
复制链接

扫一扫