Python 实现大文件读写

最新推荐文章于 2025-03-15 17:53:44 发布

ITB业生

最新推荐文章于 2025-03-15 17:53:44 发布

阅读量2k

点赞数 1

分类专栏： Python 文章标签： python 多进程 pandas

本文链接：https://blog.csdn.net/qq_19394437/article/details/115557212

版权

Python 专栏收录该内容

49 篇文章

订阅专栏

本文介绍了一种将大型fna文件转换为CSV格式的方法。通过两种方案实现：一是采用多进程与队列相结合的方式；二是利用Pandas进行数据处理与存储。这两种方案各有优势，并详细展示了其实现过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python实现大文件的读写

1、需求

1个70M左右的 fna 文件，将其数据按照一定的格式存储到 csv 的文件中，fna中文件的部分数据如下：

存储为以下结果：

2、需求分析

方案1：使用队列 + 多进程方式

一个进程实现从需求的 fna 文件中读取数据并处理，以队列的方式将其存储至队列中，一个进程实现从队列中读取数据将其存储至csv文件中。

方案2：使用 pandas

从需求的 fna 文件中读取数据并处理，以二维列表的形式存储所有的数据，之后利用Pandas的DataFrame操作保存为csv文件。

3、需求实现

方案1：队列 + 多进程

import csv
import re
import time
from multiprocessing import Queue, Process

read_file_name = 'genomic.fna'
save_file_name = 'data.csv'

start_time = time.time()

def read_files(q):
	with open(read_file_name, 'r') as rf:
		datas = rf.read()
		print('数据读取完毕...')
		list_data = datas.split(">lcl")[1:]
		for lines, data in enumerate(list_data, 1):
			time.sleep(0.2)
			res = re.findall('(.*?)\s.*\]\s((\w+\s)+)', data, re.S)
			q.put(['lcl'+res[0][0], res[0][1].replace('\n', ''), lines])
			print(f'第{lines}行数据存储完毕', q.qsize())


def write_files(q, wr):
	print('--', q.qsize())
	time.sleep(0.2)
	while True:
		if not q.empty():
			recv_data = q.get()
			wr.writerow(recv_data)
			print('获取的数据：', recv_data)


if __name__ == '__main__':
	q = Queue(5)
	myFile = open(save_file_name, 'w', newline='')
	wr = csv.writer(myFile)
	wr.writerow(['Meta', 'SequenceID', 'Label'])

	pr = Process(target=read_files, args=(q,))
	pw = Process(target=write_files, args=(q, wr))
	pw.start()
	pr.start()
	pr.join()
	pw.terminate()
	myFile.close()
	print('运行时间:', time.time() - start_time)

方案2：pandas 的DataFrame

import re
import pandas as pd
import time

read_file_name = 'genomic.fna'
list_datas = []

start_time = time.time()
def read_files():
    with open(read_file_name, 'r') as rf:
        datas = rf.read()
        list_data = datas.split(">lcl")[1:]
        for lines, data in enumerate(list_data, 1):
            res = re.findall('(.*?)\s.*\]\s((\w+\s)+)', data, re.S)
            list_datas.append(['lcl'+res[0][0], res[0][1].replace('\n', ''), lines])

read_files()
# print(len(list_datas))

data = pd.DataFrame(list_datas)
data.to_csv('./test.csv')

print('运行时间:', time.time()-start_time)

【结语】以上整个程序的实现逻辑，还存在很多不全面的地方，欢迎各位大佬指点；如果觉得笔者不易，请给予点赞，给予我记录更多文章的动力！！