文件排序去重新思路

最新推荐文章于 2021-05-23 23:16:11 发布

weixin_33978044

最新推荐文章于 2021-05-23 23:16:11 发布

阅读量95

点赞数

文章标签：数据库 python 操作系统

我一直觉得思路是比较重要的。

前几天终于从一个充满了垃圾广告的网盘里下载到了传说中的 csdn 数据库（就是以前泄露的那个，现在被各种封杀了）

我写了个一个python脚本从中提取密码（用户名和邮箱我都不需要），用来做一个字典。

但是我发现，其中有很多是重复的，比如123456789之类的。

所以，第一个问题摆在了我的面前，怎么去重，怎么给文件中的数据去重。

我首先想到的就是python 中的先set在list。

然后我遇到了第二个问题，当这个字典文件比较大的时候，全部读取到内存是不合理的。

通过资料，我查到了一条linux命令，uniq，去重，我的字典有70MB左右，速度还可以接受。

第三个问题，如果数据量真的很大很大，我该如何处理呢？

这时候我想到了数据库，数据库设计中有一个约束，叫做唯一性约束，既已经插入的值，不能再次插入。

那么，我读取文件中的数据，尝试往数据库插入，如果数据库中已经存在，我就忽略此次插入。

这就满足了我的需求了。

我的第四个问题，我需要排序，简单的排序就是sorted了，Linux也有sort命令，那么，使用数据库应该也可以排序吧？

这里仅仅是一个思路，我还未做尝试，不过应该可行。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33978044

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

linux 多文件排序去重复,Linux下大文件的排序和去重复

weixin_34820751的博客

05-02

493

命令介绍：sort ：将文本文件内容加以排序。sort -u [file] = sort [file] | uniq(去重)参数说明-b 忽略每行前面开始出的空格字符-c 检查文件是否已经按照顺序排序-d 排序时，处理英文字母、数字及空格字符外，忽略其他的字符-f 排序时，将小写字母视为大写字母-l排序时，除了040至176之间的ASCII字符外，忽略其他的字符-m 将几个排序好的文...

python读取文件并且排序_python 顺序读取文件夹下面的文件（自定义排序方式）...

weixin_35884307的博客

01-14

2124

我们在读取文件夹下面的文件时，有时是希望能够按照相应的顺序来读取，但是 file_lists=os.listdir()返回的文件名不一定是顺序的，也就是说结果是不固定的。就比如读取下面这些文件，希望能够按照图中的顺序进行读取，但是得到的结果却是这样：['Comprehensive Risk Report_May 10_ 2019 9-00-39 AM 314.html','Comprehensiv...

参与评论您还未登录，请先登录后发表或查看评论

文件内容去重及排序

傲雪星枫

06-15

2万+

本文将使用php和linux sort命令两种方法，分别实现文件内容去重及排序，并提供完成演示代码。

策略模式（下）：如何实现一个支持给不同大小文件排序的小程序？

zhujiangtaotaise的专栏

12-03

194

结合给文件排序这样一个具体的例子，来详细讲一讲策略模式的设计意图和应用场景。除此之外，我还会通过一步一步地分析、重构，给你展示一个设计模式是如何“创造”出来的。通过今天的学习，你会发现，设计原则和思想其实比设计模式更加普适和重要，掌握了代码的设计原则和思想，我们甚至可以自己创造出来新的设计模式。问题与解决思路假设有这样一个需求，希望写一个小程序，实现对一个文件进行排序的功能。文件中只包含整型数，并且，相邻的数字通过逗号来区隔。如果由你来编写这样一个小程序，你会如何来实现呢？你可以把它当作面试题，先自己

处理文本文件及其排序去重

weixin_33836874的博客

07-20

225

cat file1.txt file2.txt >file3.txtsort file3.txt | uniq >newfile.txtnewfile即为去重后的文件

大文件的排序和去重超级简单的实现

weixin_34197488的博客

07-16

561

有一道校招生的面试题，是要给一个很大的文件（不能全部放内存，比如1T）按行来排序和去重。一种简单解决方案就是分而治之，先打大文件分词大小均匀的若干个小文件，然后对小文件排好序，最后再Merge所有的小文件，在Merge的过程中去掉重复的内容。在Linux下实现这个逻辑甚至不用自己写代码，只要用shell内置的一些命令: split, sort就足够了。我们把这个流程用脚本串起来，写到she...

(完整word)选择排序法的思路及C语言程序代码.doc

最新发布

11-16

选择排序法的思路及C语言程序代码选择排序法是从算法优化的角度对冒泡法的改进，改进的思想是：经过一轮的两两比较后，并不马上交换数的位置，而是找到本轮最小的数，记下该数的位置（即在数组中的下标），待本轮...

详解桶排序算法的思路及C++编程中的代码实现

09-02

桶排序（Bucket Sort）是一种分布式排序算法，它将要排序的数据分布到若干个桶中，每个桶再分别进行排序，最后按照每个桶中元素的顺序依次合并，从而得到全局有序的结果。桶排序假设输入数据服从均匀分布，可以将...

Java实现外部排序（10M内存排序1G大文件）

04-27

有文件大小为1G的一个文件，文件每行存储的为URL及其访问次数，例如/api/auth/login 2 ，计算出访问次数最多的前5个URL和其访问次数，每行的URL可能重复，计算内存限制10M。 === 内含解题思路、测试结果截图、可运行...

排序10G的大文件

wjlucky262的专栏

07-08

2597

一个文件，大小10G，里面都是用逗号分隔的整型数字。怎么排序？文件大概张这个样子。这个问题的麻烦显然是『大』，多大算大，10G，100G，1000G，显然不能考虑直接使用内存来搞。很显然，分治思维是必然的，需要拆分文件。直接说下思路，然后上代码。 1.把10G大小的文件拆分成N个小文件，每个文件1M 2.把每个文件拉倒内存排序，可以并行操作，在内存中直接使用快排，然后写入文件 3.对文件做两两合并。前两步都好办，代码也好写。第3步文件合并，需要考虑几个问题。 ① 2个1M的有序文件怎么合并？先

怎样对文本文件内的文本行排序

weixin_34310369的博客

08-08

221

问题来自，基本要求是对文件行做一些特定排序。解决问题，是首先读到文本文本所有行，进行分析，然后再对其排序，写重写回文本文件。在下面的演示中，Insus.NET略过重写成文本文件，只是在页面输出。准备好一个文本文件ds.txt，内容跟网友大约一样。Insus.NET先写一个对象，即是处理文本文件每一行，把每一行转换为一个对象。下面的类别中，有一个方法TryParse()是为了判断文本行是否符合分析...

如何使用shell脚本快速排序和去重文件数据

weixin_33858336的博客

07-03

191

　　前面写过一篇通过shell脚本去重10G数据的文章，见《用几条shell命令快速去重10G数据》。然而今天又碰到另外一个业务，业务复杂度比上次的单纯去重要复杂很多。找了很久没有找到相应的办法，于是用shell脚本程序去处理。具体业务逻辑：　　1、首先根据给定指定进行排序　　2、排序后对给定字段进行去重，去重的规则如下：　　　　a）排序后如果相邻N行给定字段值相同的行数不超过两行，则...

超简单的C++去重、排序

热门推荐

蚂蚁的博客

06-09

6万+

一、去重函数unique 头文件：algorithm，所以别忘了加上一句：#include &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;lt;algorithm&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;gt; unique的作用就是&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;去除&amp;amp;am

实验七：掌握基本的MapReduce编程方法 (JAVA+Python实现)(编程实现文件合并和去重操作,编写程序实现对输入文件的排序,对给定的表格进行信息挖掘)

Weary_PJ的博客

04-22

1万+

一、实验目的： 1. 理解MapReduce的工作机制； 2. 掌握基本的MapReduce编程方法 3. 重点理解map过程，shuffle过程和reduce过程二、实验环境： Hadoop+Eclipse+JDK 三、实验内容和要求： 1.编程实现文件合并和去重操作对于两个输入文件，即文件A和文件B，请编写MapReduce程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新的输出文...

Linux下对文件进行去重计数以及排序

zombres的博客

10-27

1万+

使用awk，uniq统计文件

C++ 读取文本文件内容到结构体数组中并排序

03-13

2091

C语言对文件排序去重,c语言大规模排序解决方案

weixin_31736005的博客

05-23

403

C/C++ code//将out.txt文件中的内容排序并去重,结果保存到unique.txt中#include #include #define MAXLNO 10000000 //能处理的最大行数#define MAXLEN 20 //能处理的最大行宽,包括行尾的\n和字符串尾的\0char buf[MAXLNO][MAXLEN];int ln,i;FILE *f;int cmpf...

巧妙的排序+去重——C语言

tyfwin的博客

05-24

5120

明明想在学校中请一些同学一起做一项问卷调查，为了实验的客观性，他先用计算机生成了N个1到1000之间的随机整数（N≤1000），对于其中重复的数字，只保留一个，把其余相同的数去掉，不同的数对应着不同的学生的学号。然后再把这些数从小到大排序，按照排好的顺序去找同学做调查。请你协助明明完成“去重”与“排序”的工作(同一个测试用例里可能会有多组数据，希望大家能正确处理)。输入描述: 输入多行，先输...

mysql先排序后去重

licyXiaobaiyang的博客

05-22

1万+

mysql先排序后去重的写法： SELECT * FROM ( SELECT DISTINCT * FROM A ORDER BY `created` DESC ) A GROUP BY user_id order by created cesc

Java图形界面实现浮点数排序及文件操作

接着，程序需要读取这些数据，对它们进行降序排序，并将排序后的结果重新保存回文件。这个过程涉及到几个关键的Java技术和概念： 1. **Java Swing**：Java Swing是Java Foundation Classes (JFC)的一部分，用于构建...