Pandas分割超大csv文件(涉及文件编码问题)
主要解决利用pandas分割csv文件时因文件太大出现 memory error的问题。
以及预防文件乱码。
建议先做好文件探查再确定每个文件具体保存多少行。
# 分割文本容量很大很大的csv文件 Moira 2021.3.4
#!/usr/bin/env python3
# -*- coding:utf-8 -*-
import csv
import pandas as pd
# 读入的时候一定看一下文件的编码格式,可以用记事本查看
# 如果编码是加了BOM的UTF-8,一定要在读入的时候声明encoding='utf-8_sig'
path = "E:/Data.csv"
data = pd.read_csv(path, sep=',', engine='python', iterator=True, encoding='utf-8_sig')
loop = True
# 设定每个文件保存40w行
chunkSize = 400000
chunks = []
i = 0
while loop:
try:
print(i)
chunk = data.get_chunk(chunkSize)
chunks.append(chunk)
# 文件命名格式:路径名字_i.csv
file_name = r'路径名字_' + str(i) + '.csv'
# encoding='utf_8_sig' 是为了保证编码格式符合要求; header=True是为了保留字段名称
chunk.to_csv(file_name, encoding="utf_8_sig", index=False, header=True)
i += 1
except StopIteration:
loop = False
print("Iteration is stopped.")
# 懒得删除
print('开始合并')
data = pd.concat(chunks, ignore_index=True)
python入门失败无数次,奈何服务器扑街,只能集众家之长组装出这么一段代码,欢迎讨论,但是有问题也不要问我,多半我解决不了。
参考链接:
① 用pandas处理大型csv文件并分块处理大文件
②python使用chunk进行大文件的读写
③关于utf-8与utf_8_sig的区别
④解决Python memory error的问题