前言
本文是该专栏的第1篇,后面会持续分享python的黑科技知识,值得关注。
工作上在处理数据文件的时候,难免会遇到那种几个G文件(csv或者txt文档)的数据,直接使用文件打开或者查看,会非常麻烦,比如说常见的excel或者csv能查看的行数,差不多也就在一百万行,几个G或者10G+的数据文件,肯定是上百万甚至上千万条,有的更甚至是达到亿级。
对于这种数据量过大的文件,哪怕是使用Visual Studio Code查看,也行不通。
这个时候,如果说有个需求,需要将内存非常大的数据文件拆分成多个小文件,要怎么做?
废话不多说,跟着我往下继续探讨。
正文
1.csv文件拆分
举例说明,假设现在有一个10G的csv文件,如下: