文件拆分命令 split 使用简介

背景

很多时候,我们需要将一个大文件拆分成 N 个小文件,以方便并发或批量处理

命令

在 Linux 系统下就有这样一个工具:

split [选项]... [输入 [前缀]]复制代码

通常,[输入] 是一个指定路径的文件,[前缀] 用来标示拆分后的小文件

[选项] 则主要包括:

-a, --suffix-length=N    指定后缀长度为N (默认为2)
-b, --bytes=大小        指定每个输出文件的字节大小
-C, --line-bytes=大小    指定每个输出文件里最大行字节大小
-d, --numeric-suffixes     使用数字后缀代替字母后缀
-l, --lines=数值        指定每个输出文件有多少行
--verbose        在每个输出文件打开前输出文件特征
--help        显示此帮助信息并退出
--version        显示版本信息并退出复制代码

选项

对于文件 file.log,执行拆分命令:

split file.log复制代码

会在当前目录下生成以 x 为前缀,2位长度的字母为后缀命名的小文件

而且,每个小文件的行数为 1000,示例:

-rw-r--r-- 1 root root     33000 428 14:51 xaa
-rw-r--r-- 1 root root     33000 428 14:51 xab
-rw-r--r-- 1 root root     33000 428 14:51 xac
-rw-r--r-- 1 root root     33000 428 14:51 xad
-rw-r--r-- 1 root root     33000 428 14:51 xae
-rw-r--r-- 1 root root     33000 428 14:51 xaf复制代码

可以通过选项指定这些参数:

  • 指定前缀为 prefix_
split file.log prefix_复制代码
-rw-r--r-- 1 root root     33000 428 14:59 prefix_aa
-rw-r--r-- 1 root root     33000 428 14:59 prefix_ab
-rw-r--r-- 1 root root     33000 428 14:59 prefix_ac
-rw-r--r-- 1 root root     33000 428 14:59 prefix_ad
-rw-r--r-- 1 root root     33000 428 14:59 prefix_ae
-rw-r--r-- 1 root root     33000 428 14:59 prefix_af复制代码
  • 指定后缀类型和长度

后缀类型默认为字母,还可以是数字,长度默认为2

这样的话,对于字母类型小文件最大可用的后缀个数为:

aa ab ac ad ... zz 总共有:26*26=676复制代码

对于数字类型小文件最大可用后缀个数为:

00 01 02 03 ... 99 总共有 10*10=100复制代码

因此,在拆分大文件之前一定要评估好小文件的数量级,据此来选择后缀的类型和长度,否则,超出可用后缀范围的数据将丢失

示例:指定后缀类型为数字,长度为 3

split -d -a 3 file.log prefix_复制代码
-rw-r--r-- 1 root root        66 428 15:08 prefix_000
-rw-r--r-- 1 root root        66 428 15:08 prefix_001
-rw-r--r-- 1 root root        66 428 15:08 prefix_002
-rw-r--r-- 1 root root        66 428 15:08 prefix_003
-rw-r--r-- 1 root root        66 428 15:08 prefix_004
-rw-r--r-- 1 root root        66 428 15:08 prefix_005
-rw-r--r-- 1 root root        66 428 15:08 prefix_006复制代码
  • 指定小文件大小
  1. 按照行数拆分,示例:每个小文件最大 10000 行
    split -l 10000 file.log复制代码
  2. 按照字节数拆分,示例:每个小文件最大 4M
    split -b 4M file.log复制代码

总结

以上,便是文件拆分命令 split 的使用简介

需要注意的就是,后缀类型和长度的设置,否则会丢失子文件


还有疑问? 联系作者微博/微信 @Ceelog

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值