大数据量下的sort

最新推荐文章于 2021-07-22 10:43:07 发布

sunmenggmail

最新推荐文章于 2021-07-22 10:43:07 发布

阅读量1.9k

点赞数

分类专栏： linux

linux 专栏收录该内容

100 篇文章 0 订阅

订阅专栏

http://blog.chinaunix.net/uid-23586172-id-3349317.html

sort在linux命令行下面是一个非常好用的工具，有人把它当做每个程序员都应该知道的8个Linux命令之一，http://news.cnblogs.com/n/157504/ 。最近在处理大数据的时候发现两点。

1. 用sort -u 而不是sort|uniq。

sort应该是按照归并的思想来的，先分成一个个小文件，排序后再组合成最后拍好序的文件。所以，sort -u 要比sort |　uniq 快。因为越早去除那些相同的元素，肯定是对后面归并的速度有好处的。

具体的测试如下：

2.更换sort的临时文件生成目录。

上面所说的sort的临时小文件是默认放在/tmp路径下的，有时候/tmp的空间有限制，比如4G，那么，超过4G的文件就没有办法用sort了。可以用sort -T Path 来临时文件的目录。不用担心，归并完以后小文件会自动删除的。

3. 按键值排序

这点其实跟大数据量有多大关系，而是很好用，sort -k 按照键值来排序。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。