Linux命令之大文件分割

最新推荐文章于 2024-05-23 22:23:08 发布

小哥骑单车

最新推荐文章于 2024-05-23 22:23:08 发布

阅读量1.1w

点赞数 6

分类专栏： Linux 文章标签： linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lejustdoit/article/details/106384508

版权

Linux 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

我们有时候会遇到大文件需要处理，当文件过大时，Linux中使用vim、cat、vim、grep、awk 等这些工具对大文件进行分析执行速度缓慢，占用内存资源大，文件传输慢；

下面我有一个原始文件，sourcelist.xlsx ，比较大了，5G多，光是用wc -l统计行数，时间就花费了3分钟；

linux命令 split提供两种方式（按照行切割、或者按照大小切割，见后面第1和第2步骤）对文件进行切割：

1、根据行数切割，-l参数，以下命令是50w行一个文件， --verbose表示显示执行的详细过程，sourcelist.xlsx原文件名，target.xlsx是分割以后目标文件名：

split -l 500000 -d --verbose sourcelist.xlsx target.xlsx

生成后的文件名有一点问题，我们本来需要的是*.xlsx文件后缀，现在分割后的文件序号跑到了文件后缀的后面，需要处理一下：

for i in `ls|grep target`; do a=`echo $i|awk -F '.xlsx' '{print $1$2".xlsx"}'`; mv $i $a; done （这个命令我问的运维），执行完后：

然后我们再来看分割后的文件，行数是否跟之前预期匹配，貌似没有问题，50w行：wc -l target11.xlsx ，wc -l target12.xlsx

但是分割以后的文件大小不一样，因为每行文件内容不一样，所以下面第2种方式，按照大小分割的命令，我们不太推荐：

2、根据大小切割，-b（不推荐这种方式，如果linux强行按照大小去分割文件，那么可能会破坏原始数据的格式完整性，比如刚好在某一行数据中间，前后就被分割到了相邻的两个文件中）

split -b 60M -d --verbose sourcelist.xlsx target.xlsx，分割以后的文件如下：

3、说完了分割，那么合并文件的方式呢？

cat 命令

cat target00.xlsx target01.xlsx > targetmerge.xlsx，合并后的targetmerge.xlsx大小 120mb，合理：

备注：在上面第1步，split -l 500000 -d --verbose sourcelist.xlsx target.xlsx命令生成新文件，关于格式后缀的问题，

其实可以先生成得时候不加后缀，： split -l 500000 -d --verbose sourcelist.xlsx target

target**就是新文件名，我们通过命令来统一给新生成的文件再加上后缀：

find ./ -name 'target*' -printf %f\\n|awk -F'.' '{print $1}'|xargs -i{} mv {} {}.xlsx

小哥骑单车

关注

6
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Linux命令之大文件分割

我们有时候会遇到大文件需要处理，当文件过大时，Linux中使用vim、cat、vim、grep、awk 等这些工具对大文件进行分析执行速度缓慢，占用内存资源大，文件传输慢；这里有一个原始文件，sourcelist.xlsx ，比较大了，5G多，光是用wc -l统计行数，就花费了3分钟；linux命令 split提供两种方式对文件进行切割：1、根据行数切割，-l参数，以下命令是50w行一个文件， --verbose表示显示执行的详细过程，sourcelist.xlsx原文件名，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。