Linux下大文件的排序和去重复

最新推荐文章于 2024-06-10 21:25:11 发布

astro_boy

最新推荐文章于 2024-06-10 21:25:11 发布

阅读量168

点赞数

分类专栏： Algorithm 文章标签： Linux

本文链接：https://blog.csdn.net/astro_boy/article/details/83732025

版权

Algorithm 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

Linux下我们用 sort 与 uniq 的命令来实现去重复行。

去重复行

简单的用法如下，如一个文件名：happybirthday.txt

cat happybirthday.txt (显示文件内容)

Happy Birthday to You!
Happy Birthday to You!
Happy Birthday Dear Tux!
Happy Birthday to You!

cat happybirthday.txt|sort （排序）

Happy Birthday Dear Tux!
Happy Birthday to You!
Happy Birthday to You!
Happy Birthday to You!

cat happybirthday.txt|sort|uniq (去重复行)

Happy Birthday Dear Tux!
Happy Birthday to You!

去大文件重复行

但有时碰到一个大文件时（例如G级的文件），用上面的命令时报错，提示空间不足。我尝试了一下，最后是用 split 命令把大文件分割为几个小文件，单独排完序后再合并 uniq 。

split -b 200m  happybirthday.big Prefix_

用-b参数切割happybirthday.big，小文件为200M。切割后的文件名前缀是Prefix_

切割后的文件名如

Prefix_aa

Prefix_ab

再分别sort

sort Prefix_aa >Prefix_aa.sort

sort Prefix_ab >Prefix_ab.sort

再用 sort -m合并，再 uniq

cat Prefix_aa.sort Prefix_ab.sort |sort -m |uniq

这是好早前碰到的一个问题了。没记错的话应该是这么回事。~

sort 与 uniq 命令还有许多有用的参数，如sort -m、uniq -u、uniq -d等。sort 与 uniq的组合是很强大的。

~完。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

astro_boy

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

linux 多文件排序去重复,Linux下大文件的排序和去重复

weixin_34820751的博客

05-02

501

命令介绍：sort ：将文本文件内容加以排序。sort -u [file] = sort [file] | uniq(去重)参数说明-b 忽略每行前面开始出的空格字符-c 检查文件是否已经按照顺序排序-d 排序时，处理英文字母、数字及空格字符外，忽略其他的字符-f 排序时，将小写字母视为大写字母-l排序时，除了040至176之间的ASCII字符外，忽略其他的字符-m 将几个排序好的文...

linux合并fa文件_Linux文件排序和FASTA文件操作，linux文件排序fasta

weixin_39805720的博客

12-19

633

Linux文件排序和FASTA文件操作，linux文件排序fasta文件排序seq: 产生一系列的数字; man seq查看其具体使用。我们这使用seq产生下游分析所用到的输入文件。# 产生从1到10的数，步长为1$ seq 1 1012345678910# 产生从1到10的数，步长为1，用空格分割$ seq -s ' ' 1 101 2 3 4 5 6 7 8 9 10# 产生从1到10的数，步...

参与评论您还未登录，请先登录后发表或查看评论

Linux命令_sort & 排序、去重

m0_61066945的博客

10-29

5068

Linux排序、去重；按数字大小排序、按文件大小排序

linux如何排序去重

weixin_30755709的博客

02-28

871

答:sort -u 转载于:https://www.cnblogs.com/dakewei/p/10452182.html

Linux系统sort排序与uniq去重

06-10

790

工作中数据太多太杂，不便于查看分析。这时是可以采用sort将数据排序，同时可以配合uniq命令进行去重。场景：云平台中，日常工作包含巡检工作，是通过事先编写好的巡检脚本去检测云平台的和Node节点（Linux系统）的健康情况。有问题的信息会打印保存在日志中，这里面包含了很多IP（Node），而且具有大量重复IP（成百上千个IP等）。为了定位到哪些Node节点存在问题以及都有什么问题。为了便于分析查看，需要对其IP进行排序以及去重处理。

linux下查找重复文件

11-11

总结一下，在Linux下查找重复文件，我们可以利用`find`、`md5sum`、`sort`和`uniq`等基本命令，形成一个无网络环境下的解决方案。这个方法不仅适用于日常使用，还能够帮助理解Linux命令行的基本用法和它们的组合能力...

Linux下如何寻找相同文件的方法

09-14

inode是Linux文件系统中的一个重要概念，它存储了关于文件的所有元数据，如文件所有者、权限、大小、修改时间等，但不包括文件的实际内容。每个文件和目录都有一个唯一的inode号码。如果两个或多个文件的inode号码...

基于linux命令提取文件夹内特定文件路径

09-14

总结一下，通过`find`、`basename`、`dirname`、`sort`和`cut`这些基本的Linux命令，我们可以高效地完成在特定目录下查找特定类型文件的任务，同时获取文件名和完整路径，并进行必要的处理，如去除重复和调整路径...

linux下pcap文件解析头文件,Linux下如何操作 pcap 文件

weixin_35275073的博客

04-28

1076

Linux下如何操作 pcap 文件发布时间:2017-12-20 09:36:28来源:红联作者:Ronny导读如果你是一个测试入侵侦测系统或一些网络访问控制策略的网络管理员，那么你经常需要抓取数据包并在离线状态下分析这些文件。当需要保存捕获的数据包时，我们一般会存储为 libpcap 的数据包格式 pcap，这是一种被许多开源的嗅探工具以及捕包程序广泛使用的格式。如果 pcap 文件被用于...

linux下实现对多个文件去重软件,Linux下大文件的排序和去重复

weixin_39980298的博客

04-29

131

简单的用法如下，如一个文件名：happybirthday.txtcat happybirthday.txt (显示文件内容)Happy Birthday to You!Happy Birthday to You!Happy Birthday Dear Tux!Happy Birthday to You!cat happybirthday.txt|去大文件重复行但有时碰到一个大文件时(例如G级的文件...

【linux】linux去重的方法

热门推荐

LySunflower的博客

11-22

1万+

linux 去重方法经验分享

linux中sort和uniq命令

春日野穹

10-25

5156

0x1 sort命令命令说明： sort命令将文本文件内容加以排序,sort可针对文本文件的内容，以行为单位来排序参数： -b 忽略每行前面开始出的空格字符。 -c 检查文件是否已经按照顺序排序。 -d 排序时，处理英文字母、数字及空格字符外，忽略其他的字符。 -f 排序时，将小写字母视为大写字母。 -i 排序时，除了040至176之间的ASCII字符外，忽略其他的字符。 ...

Linux指令之利用uniq, sort，对大文件做排序去重

zyhmz的博客

06-30

4609

最近在对一些数据做筛洗，涉及到对大文件的排序和去重。刚开始接触到这个这个任务，我也是各种, 想用redis, 想用bitmap。发现各种这些实现的方法都极其繁琐，而且可能极其吃内存，所以都不是很可行。在百抓挠腮之际，知乎上发现了回答，就是利用sort进行排序，然后利用uniq进行去重。本来刚开始看到这个回答，我是持有怀疑态度的。但是进过实践发现，利用uniq 和 sort 的指令，其中间数据不...

linux sort 多列去重排序,【Linux】sort排序、uniq去重、wc统计

weixin_32821533的博客

05-14

2621

文章目录一、sort 排序1、语法2、参数说明3、实例二、uniq 去重1、uniq使用2、sort和uniq去重结果对比三、wc 统计一、sort 排序sort命令用于对文本文件内容，以行为单位来排序。sort命令以空格作为字段分隔符，将一行分割为多个关键字对文件进行排序。需要注意的是除非你将输出重定向到文件中，否则sort命令并不对文件内容进行实际的排序(即文件内容没有修改)，只是将文件内容...

linux对csv文件进行排序,Linux指令之利用uniq, sort，对大文件做排序去重

weixin_34723270的博客

05-02

589

最近在对一些数据做筛洗，涉及到对大文件的排序和去重。刚开始接触到这个这个任务，我也是想尽各种方法, 想用redis, 想用bitmap。最后发现这些实现的方法都极其繁琐，而且极其吃内存，所以都不是很可行。在百抓挠腮之际，知乎上发现了一个回答，就是利用sort进行排序，然后利用uniq进行去重。本来刚开始看到这个回答，我是持有怀疑态度的。但是经过实践发现，利用uniq 和 sort的指令，其中间数...

Linux下对文件进行去重计数以及排序

zombres的博客

10-27

1万+

使用awk，uniq统计文件

Linux 查看文件去重并排序

Biu Biu Biu ~~~~~

04-06

820

sed -e 's/\.//g' -e 's/\,//g' -e 's/ /\n/g' append.sed|sort |uniq -c|sort -nr

利用Linux命令行进行文本按行去重并按重复次数排序

水逝流年

09-15

8761

linux命令行提供了非常强大的文本处理功能，组合利用linux命令能实现好多强大的功能。本文这里举例说明如何利用Linux命令行进行文本按行去重并按重复次数排序。主要用到的命令有sort，uniq和cut。其中，sort主要功能是排序，uniq主要功能是实现相邻文本行的去重，cut可以从文本行中提取相应的文本列(简单地说，就是按列操作文本行)。用于演示的测试文件内容如下： Hello

Linux下遍历并删除重复文件的脚本操作指南

本文标题中的'rm.rar_LINUX'暗示了一种压缩文件包，其中可能包含用于执行遍历和删除操作的脚本或程序。通过遍历指定目录，可以列出目录下所有的文件，并对内容相同的文件进行识别和处理。用户可以根据自己的需求决定...