Python实现大文件的读写
1、需求
1个70M左右的 fna 文件,将其数据按照一定的格式存储到 csv 的文件中,fna中文件的部分数据如下:
存储为以下结果:
2、需求分析
方案1:使用队列 + 多进程方式
一个进程实现从需求的 fna 文件中读取数据并处理,以队列的方式将其存储至队列中,一个进程实现从队列中读取数据将其存储至csv文件中。
方案2:使用 pandas
从需求的 fna 文件中读取数据并处理,以二维列表的形式存储所有的数据,之后利用Pandas的DataFrame操作保存为csv文件。
3、需求实现
方案1: 队列 + 多进程
import csv
import re
import time
from multiprocessing import Queue, Process
read_file_name = 'genomic.fna'
save_file_name = 'data.csv'
start_time = time.time()
def read_files(q):
with open(read_file_name, 'r') as rf:
datas = rf.read()
print('数据读取完毕...')
list_data = datas.split(">lcl")[1:]
for lines, data in enumerate(list_data, 1):
time.sleep(0.2)
res = re.findall('(.*?)\s.*\]\s((\w+\s)+)', data, re.S)
q.put(['lcl'+res[0][0], res[0][1].replace('\n', ''), lines])
print(f'第{lines}行数据存储完毕', q.qsize())
def write_files(q, wr):
print('--', q.qsize())
time.sleep(0.2)
while True:
if not q.empty():
recv_data = q.get()
wr.writerow(recv_data)
print('获取的数据:', recv_data)
if __name__ == '__main__':
q = Queue(5)
myFile = open(save_file_name, 'w', newline='')
wr = csv.writer(myFile)
wr.writerow(['Meta', 'SequenceID', 'Label'])
pr = Process(target=read_files, args=(q,))
pw = Process(target=write_files, args=(q, wr))
pw.start()
pr.start()
pr.join()
pw.terminate()
myFile.close()
print('运行时间:', time.time() - start_time)
方案2:pandas 的DataFrame
import re
import pandas as pd
import time
read_file_name = 'genomic.fna'
list_datas = []
start_time = time.time()
def read_files():
with open(read_file_name, 'r') as rf:
datas = rf.read()
list_data = datas.split(">lcl")[1:]
for lines, data in enumerate(list_data, 1):
res = re.findall('(.*?)\s.*\]\s((\w+\s)+)', data, re.S)
list_datas.append(['lcl'+res[0][0], res[0][1].replace('\n', ''), lines])
read_files()
# print(len(list_datas))
data = pd.DataFrame(list_datas)
data.to_csv('./test.csv')
print('运行时间:', time.time()-start_time)
【结语】以上整个程序的实现逻辑,还存在很多不全面的地方,欢迎各位大佬指点;如果觉得笔者不易,请给予点赞,给予我记录更多文章的动力!!