Python 实现大文件读写

Python实现大文件的读写


1、需求

    1个70M左右的 fna 文件,将其数据按照一定的格式存储到 csv 的文件中,fna中文件的部分数据如下:    

   存储为以下结果:

 

 

2、需求分析

   方案1:使用队列 + 多进程方式

       一个进程实现从需求的 fna 文件中读取数据并处理,以队列的方式将其存储至队列中,一个进程实现从队列中读取数据将其存储至csv文件中。

  方案2:使用 pandas

       从需求的 fna 文件中读取数据并处理,以二维列表的形式存储所有的数据,之后利用Pandas的DataFrame操作保存为csv文件。

  

3、需求实现

方案1:  队列 + 多进程 

import csv
import re
import time
from multiprocessing import Queue, Process

read_file_name = 'genomic.fna'
save_file_name = 'data.csv'

start_time = time.time()

def read_files(q):
	with open(read_file_name, 'r') as rf:
		datas = rf.read()
		print('数据读取完毕...')
		list_data = datas.split(">lcl")[1:]
		for lines, data in enumerate(list_data, 1):
			time.sleep(0.2)
			res = re.findall('(.*?)\s.*\]\s((\w+\s)+)', data, re.S)
			q.put(['lcl'+res[0][0], res[0][1].replace('\n', ''), lines])
			print(f'第{lines}行数据存储完毕', q.qsize())


def write_files(q, wr):
	print('--', q.qsize())
	time.sleep(0.2)
	while True:
		if not q.empty():
			recv_data = q.get()
			wr.writerow(recv_data)
			print('获取的数据:', recv_data)


if __name__ == '__main__':
	q = Queue(5)
	myFile = open(save_file_name, 'w', newline='')
	wr = csv.writer(myFile)
	wr.writerow(['Meta', 'SequenceID', 'Label'])

	pr = Process(target=read_files, args=(q,))
	pw = Process(target=write_files, args=(q, wr))
	pw.start()
	pr.start()
	pr.join()
	pw.terminate()
	myFile.close()
	print('运行时间:', time.time() - start_time)

方案2:pandas 的DataFrame

import re
import pandas as pd
import time

read_file_name = 'genomic.fna'
list_datas = []

start_time = time.time()
def read_files():
    with open(read_file_name, 'r') as rf:
        datas = rf.read()
        list_data = datas.split(">lcl")[1:]
        for lines, data in enumerate(list_data, 1):
            res = re.findall('(.*?)\s.*\]\s((\w+\s)+)', data, re.S)
            list_datas.append(['lcl'+res[0][0], res[0][1].replace('\n', ''), lines])

read_files()
# print(len(list_datas))

data = pd.DataFrame(list_datas)
data.to_csv('./test.csv')

print('运行时间:', time.time()-start_time)

结语】以上整个程序的实现逻辑,还存在很多不全面的地方,欢迎各位大佬指点;如果觉得笔者不易,请给予点赞,给予我记录更多文章的动力!!

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值