Pandas分割超大csv文件（涉及文件编码问题）

最新推荐文章于 2024-07-30 10:08:50 发布

今天又不想工作

最新推荐文章于 2024-07-30 10:08:50 发布

阅读量916

点赞数 3

分类专栏： Pyhon 文章标签： python csv 乱码

本文链接：https://blog.csdn.net/kerry1218/article/details/114396167

版权

Pyhon 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Pandas分割超大csv文件（涉及文件编码问题）

主要解决利用pandas分割csv文件时因文件太大出现 memory error的问题。
以及预防文件乱码。
建议先做好文件探查再确定每个文件具体保存多少行。

# 分割文本容量很大很大的csv文件  Moira 2021.3.4

#!/usr/bin/env python3
# -*- coding:utf-8 -*-

import csv
import pandas as pd
# 读入的时候一定看一下文件的编码格式，可以用记事本查看
# 如果编码是加了BOM的UTF-8,一定要在读入的时候声明encoding='utf-8_sig'
path = "E:/Data.csv"
data = pd.read_csv(path, sep=',', engine='python', iterator=True, encoding='utf-8_sig')
loop = True
# 设定每个文件保存40w行
chunkSize = 400000
chunks = []
i = 0
while loop:
    try:
        print(i)
        chunk = data.get_chunk(chunkSize)
        chunks.append(chunk)
        # 文件命名格式:路径名字_i.csv
        file_name = r'路径名字_' + str(i) + '.csv'
        # encoding='utf_8_sig' 是为了保证编码格式符合要求;  header=True是为了保留字段名称
        chunk.to_csv(file_name, encoding="utf_8_sig", index=False, header=True)
        i += 1
    except StopIteration:
        loop = False
        print("Iteration is stopped.")
# 懒得删除
print('开始合并')
data = pd.concat(chunks, ignore_index=True)

python入门失败无数次，奈何服务器扑街，只能集众家之长组装出这么一段代码，欢迎讨论，但是有问题也不要问我，多半我解决不了。

参考链接：
① 用pandas处理大型csv文件并分块处理大文件
 ②python使用chunk进行大文件的读写
 ③关于utf-8与utf_8_sig的区别
 ④解决Python memory error的问题

今天又不想工作

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Pandas分割超大csv文件（涉及文件编码问题）

Pandas分割超大csv文件（涉及文件编码问题）主要解决利用pandas分割csv文件时因文件太大出现 memory error的问题。以及预防文件乱码。建议先做好文件探查再确定每个文件具体保存多少行。# 分割文本容量很大很大的csv文件 Moira 2021.3.4#!/usr/bin/env python3# -*- coding:utf-8 -*-import csvimport pandas as pd# 读入的时候一定看一下文件的编码格式，可以用记事本查看# 如果编码是
复制链接

扫一扫