按大小拆分超大文件的方法（本文测试了一个62G的文件）

最新推荐文章于 2024-07-30 10:08:50 发布

蚂蚁学Python

最新推荐文章于 2024-07-30 10:08:50 发布

阅读量1.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/peishuai1987/article/details/89883008

版权

遇到一个问题，从网络上下载了一个62G的文件（新浪微博的语料集，地址：http://itee.uq.edu.au/~dke/WISE2012.htm），之后要进行其他处理，很显然先拆分成小文件再处理比较好。

我当时用的是windows系统，貌似没有这种拆分如此大的文件的工具，我本人试着用C++的内存映射方法（在内存里建一个内存映射文件，然后把超大文件的一部分映射到内存，然后分片读文件），将文件的一部分一部分读出来，读一部分换掉一部分然后写入小文件，从而达到拆分文件的目的，然而网上找了好多文章，内存映射这块还是没搞懂，尤其是参数很是复杂，只好放弃。

最后才发现，windows下面难以解决的问题，linux早就存在了现成的方案来解决，那就是split命令。split具体的使用方法贴一下：

linux split 命令

功能说明：切割文件。

语　　法：split [–help][–version][-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件][输出文件名]

补充说明：split可将文件切成较小的文件，预设每1000行会切成一个小文件。

参　　数：

-<行数>或-l<行数> 　指定每多少行就要切成一个小文件。

-b<字节> 　指定每多少字就要切成一个小文件。支持单位:m,k

-C<字节> 　与-b参数类似，但切割时尽量维持每行的完整性。

–help 　显示帮助。

–version 　显示版本信息。

[输出文件名] 　设置切割后文件的前置文件名，split会自动在前置文件名后再加上编号。

使用例子：

　　split -b 100m filename

看过命令后，会发现其中的-C命令，会照顾到行，就是说截取的时候，不会将一行从中间截断，最终我只用了一行命令解决了问题：

split -C 1024m 62G.txt output

该命令将一个62G的文件，拆分成每个1G的小文件，并且不会将行拆开（新浪微博这个数据，每行一条，不能拆分）

蚂蚁学Python

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

蚂蚁学Python 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。