Pandas分割超大csv文件(涉及文件编码问题)

Pandas分割超大csv文件(涉及文件编码问题)

主要解决利用pandas分割csv文件时因文件太大出现 memory error的问题。
以及预防文件乱码。
建议先做好文件探查再确定每个文件具体保存多少行。

# 分割文本容量很大很大的csv文件  Moira 2021.3.4

#!/usr/bin/env python3
# -*- coding:utf-8 -*-

import csv
import pandas as pd
# 读入的时候一定看一下文件的编码格式,可以用记事本查看
# 如果编码是加了BOM的UTF-8,一定要在读入的时候声明encoding='utf-8_sig'
path = "E:/Data.csv"
data = pd.read_csv(path, sep=',', engine='python', iterator=True, encoding='utf-8_sig')
loop = True
# 设定每个文件保存40w行
chunkSize = 400000
chunks = []
i = 0
while loop:
    try:
        print(i)
        chunk = data.get_chunk(chunkSize)
        chunks.append(chunk)
        # 文件命名格式:路径名字_i.csv
        file_name = r'路径名字_' + str(i) + '.csv'
        # encoding='utf_8_sig' 是为了保证编码格式符合要求;  header=True是为了保留字段名称
        chunk.to_csv(file_name, encoding="utf_8_sig", index=False, header=True)
        i += 1
    except StopIteration:
        loop = False
        print("Iteration is stopped.")
# 懒得删除
print('开始合并')
data = pd.concat(chunks, ignore_index=True)

python入门失败无数次,奈何服务器扑街,只能集众家之长组装出这么一段代码,欢迎讨论,但是有问题也不要问我,多半我解决不了。

参考链接:
① 用pandas处理大型csv文件并分块处理大文件
②python使用chunk进行大文件的读写
③关于utf-8与utf_8_sig的区别
④解决Python memory error的问题

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值