超大文件去除重复数据

陌上阳光

于 2024-05-08 17:47:39 发布

阅读量376

点赞数 4

分类专栏： Linux 文章标签： Linux 数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42831564/article/details/138580589

版权

Linux 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

背景

一个超大200万行文件第一列是文件名第二列是文本第一列有重复的文件名如何删除重复的文件名和对应的文本

awk ‘!seen[$1]++’

使用一些命令行工具来处理大文件，如awk、sed、grep等。
使用awk命令来去除重复行：
bash awk '!seen[$1]++' your_file.txt > new_file.txt
这个命令将会去除文件中重复的行，并将结果写入到new_file.txt中。
这个awk命令用于去除文件中重复的行，并将结果输出到新文件中。下面是命令的具体解释：

命令详解

'!seen[$1]++'：这是awk的一种特殊用法，用于去除重复行。具体解释如下：
- !seen[$1]：!表示逻辑取反，seen[$1]表示一个数组，以第一列作为索引，用于记录是否已经出现过该行。
- $1：表示当前行的第一列。
- ++：表示递增操作，会使seen[$1]中对应索引的值增加1。
- 所以!seen[$1]++的意思是：如果当前行的第一列没有出现过（即seen[$1]为0），则取反为真，这样就会输出该行。
your_file.txt：这是要处理的原始文件名。
>：表示输出重定向符号，将命令的输出写入到指定文件中。
new_file.txt：这是输出的新文件名，命令会将去除重复行后的结果写入到这个文件中。

综合起来，这个awk命令会遍历原始文件的每一行，以第一列作为判断依据，去除重复的行，并将结果输出到新文件中。

数据sql去重

需要将数据存储到数据库中，是文本文件，并没有保存到数据库中

使用专门的大数据处理工具

对于超大文件，可以考虑使用一些专门针对大数据处理的工具，如Hadoop、Spark等。

分块处理：

可以将文件分成多个小块，分别处理每个小块，然后再合并结果。操作麻烦

使用编程语言：

除了Python，还有一些其他编程语言也适合处理大文件，如C、Java等。

选择合适的方法取决于你的需求和环境。例如，如果只是简单的去除重复行，使用Unix/Linux命令行工具可能是一个快速且有效的选择。如果需要更复杂的处理，可以考虑使用数据库或者专门的大数据处理工具。

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
超大文件去除重复数据

一个超大200万行文件第一列是文件名第二列是文本第一列有重复的文件名如何删除重复的文件名和对应的文本。
复制链接

扫一扫

专栏目录

陌上阳光 CSDN认证博客专家 CSDN认证企业博客

码龄6年

139: 原创

1万+: 周排名

1万+: 总排名

16万+: 访问

: 等级

3111: 积分

959: 粉丝

1108: 获赞

45: 评论

1055: 收藏

私信

关注

热门文章

分类专栏

TTS 6篇
动手学深度学习 38篇
深度学习 11篇
python 24篇
人工智能
ffmpeg 2篇
杨博雄老师课后题 2篇
学习pytorch 21篇
语音识别
C 2篇
C++ 2篇
pandas 2篇
SGE平台 1篇
markdown 1篇
word2vec 2篇
kaldi 10篇
Linux 26篇
sox 5篇

最新评论

动手学深度学习55 循环神经网络 RNN 的实现
大数据飞总: 讲解的很详细，很有参考价值，支持博主优质好文，期待下一篇精文
动手学深度学习55 循环神经网络 RNN 的实现
征途黯然.: This article about 动手学深度学习55循环神经网络RNN的实现 is very insightful and profound! The understanding and explanation are impressive. I have gained a lot of knowledge from it. Thank you for sharing!
动手学深度学习55 循环神经网络 RNN 的实现
小白不加班: 优质好文，内容详实，让我从中获益良多，每篇博文都是知识的瑰宝，
动手学深度学习55 循环神经网络 RNN 的实现
豆小匠: 干货啊，这篇博客关于循环神经网络RNN的实现讲解得非常详细。从基础知识到具体实现，每个步骤都阐述得很清楚。对于初学者来说，这是一个很好的学习资源。感谢作者的分享，让我对RNN有了更深入的理解。期待更多深度学习方面的干货分享！
动手学深度学习55 循环神经网络 RNN 的实现
DevKevin: 干货啊，循环神经网络RNN的实现！文章深入浅出地介绍了RNN的原理和代码实现过程，从基础概念到实际应用都有详细的讲解，对于初学者来说非常友好。感谢作者的分享，让我对RNN有了更深入的了解。期待更多关于深度学习的干货分享！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。