记录一次读取 9.8G的一个csv文件，并且写入mysql。

最新推荐文章于 2019-06-13 17:50:27 发布

qq_43355847

最新推荐文章于 2019-06-13 17:50:27 发布

阅读量752

点赞数 2

分类专栏： python3 文章标签： python pandas mysql

本文链接：https://blog.csdn.net/qq_43355847/article/details/90580802

版权

本文记录了一次处理9.8GB大小、1600万行41列CSV文件的经验，使用Python的pandas库分块读取，并通过多进程写入MySQL。在过程中，遇到内存错误问题，解决方法是删除已处理数据并手动调用垃圾回收，以避免内存溢出。最终，程序在1161秒内完成了读取和写入任务。

摘要由CSDN通过智能技术生成

记录一次读取1600万行 X 41列的csv文件。

目标 /环境

文件数据为测试模拟数据，数据大小 9.8G，目标为读取数据，并且写入mysql。
目标文件

运行环境：

python3.6 (64位)，pandas，pymysql。

思路

采用pandas内置read_csv方法，分块读取文件，开4个进程写入mysql。

遇到的坑有，memoryerror，这里需要强调！！！必须把写入过的数据del掉，然后调用gc.collect() 释放内存，否则，一直会出现memoryerror，因为python的垃圾回收机制必须试函数执行完才释放，按照这个思路，不等数据读取完，内存就炸了。

下面上代码。

代码

import pandas as pd
from sqlalchemy import create_engine
from multiprocessing import Pool
import gc

def gets():
    """分块读取文件，其实1,000,000行据说速度最佳。"""
    df1 = pd.read_csv(r'C:\\Users\\zq\\Desktop\\Project\\demo_python\\测试2.csv', low_memory=False, chunksize=500000)
    return df1

def to_sqls(df

最低0.47元/天解锁文章

qq_43355847

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
记录一次读取 9.8G的一个csv文件，并且写入mysql。

记录一次读取1600万行 X 41列的csv文件。目标 /环境文件数据为测试模拟数据，数据大小 9.8G，目标为读取数据，并且写入mysql。目标文件运行环境：python3.6 (64位)，pandas，pymysql。思路采用pandas内置read_csv方法，分块读取文件，开4个进程写入mysql。遇到的坑有，memoryerror，这里需要强调！！！必须把写入过的数...
复制链接

扫一扫