如何只用 Linux 命令行来随机抽取文本数据文件的 N 行？

最新推荐文章于 2024-07-29 17:28:33 发布

klcola

最新推荐文章于 2024-07-29 17:28:33 发布

阅读量3.2k

点赞数 1

分类专栏：生物信息 bash 文章标签：机器学习深度学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/klcola/article/details/105871424

版权

生物信息同时被 2 个专栏收录

13 篇文章 2 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一句话读完版：
假设从 data.txt 中随机抽取 100 行，使用如下命令

shuf data.txt | head -100

正文

在进行机器学习或者深度学习工作的时候，我们有时希望从一个大数据文件中随机抽取一些记录来进行一些快速的预研，无须编程，仅仅用一条 Linux 命令行就可以实现我们的目的。
首先来看一个例子，假设我们有数据文件 test.txt ，其内容如下

假设我们要从 test.txt 中随机抽取 3 行，可以使用shuf test.txt | head -3 来实现，参见下面的命令运行及输出

$ shuf test.txt | head -3
444
555
333

这是因为 shuf 命令可以将文件按行随机打乱之后输出。

我们也可以使用 sort --random-sort 来进行类似的操作，不过和 shuf 不同，sort --random-sort 会将相同的行排列在一起输出，参见下面的输出

使用 shuf

$ shuf test.txt
111
999
777
111
333
888
222
666
888
444
111
555

使用 sort --random-sort

$ sort --random-sort test.txt
444
333
222
111
111
111
666
888
888
777
555
999

能看到 shut 和 sort --random-sort 对于相同行的处理是不同的。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。