python对大量数据去重_分享大量数据去重的方法，顺便问下 python 内存占用问题...

最新推荐文章于 2024-07-22 21:51:13 发布

weixin_39630498

最新推荐文章于 2024-07-22 21:51:13 发布

阅读量384

点赞数

文章标签： python对大量数据去重

单个文本文件，大小 11G ，数据总量 6000 万左右，去重后约 4000 万，去重的依据是 md5 值列。

首先尝试的方法是：建立 md5 的唯一索引， load data infile 语句导入，跑了一个晚上没跑完。

后来取 md5 的前三位进行判断，把不重复的数据写到新的文本文件，去掉唯一索引，再次用 load data infile 语句导入，共计（ 10 + 8 = 18 分钟）。

代码大致如下，问题是，这段代码运行后会把 6G 内存全部用完（系统 1G ， python 占用 5G ），想问下怎么会占用这么多内存？

import time

start_time = time.time()

lines = []

md5s = {}

for x in 'abcdef1234567890':

for y in 'abcdef1234567890':

for z in 'abcdef1234567890':

md5s[x + y + z] = set()

with open('files.txt', 'r', encoding = 'utf-8') as f:

for i, line in enumerate(f):

try:

if i % 10000 == 0:

print(i)

md5 = line.split('|')[3]

key = md5[:3]

if md5 not in md5s[key]:

md5s[key].add(md5)

lines.append(line)

if len(lines) > 10000:

with open('new.txt', 'a', encoding = 'utf-8') as f:

f.write(''.join(lines))

lines = []

except Exception as e:

print(e)

print(line)

with open('new.txt', 'a', encoding = 'utf-8') as f:

f.write(''.join(lines))

lines = []

print((time.time() - start_time) / 60)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39630498

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python给excel的列数据去重

11-19

https://pypi.org/project/xlrd/ xlrd是1.2的版本 https://pypi.org/project/xlwt/ 分别下载tar.gz 文件解压后的文件夹，cmd python setup.py install

python对大量数据去重_python对数据去重处理

weixin_39559015的博客

11-20

652

我们在数据处理时，经常需要用到对重复数据进行过滤处理。对数据去重有两种处理方式，如下：1、对重复数据去重，并且会自动排序使用函数 set#列表去重list_a = [6, 6, 5, 1, 2, 2, 3, 4, 4, 4, 6, 7, 8, 8, 8, 10]#仅去重list_aa =set(list_a)print(list_aa)结果如下：细心的小伙伴就会发现，不仅去重了，还对数据进...

参与评论您还未登录，请先登录后发表或查看评论

Python 如何对上万、百万、亿级数据去重？

最新发布

小鸿的博客

07-22

992

今天我们要一起探索一个让数据工程师、数据科学家和开发者们都头疼的问题：如何对海量数据进行去重。随着数据量的不断增长，我们在处理数据时，去重操作变得愈发重要且复杂。那么，Python 是如何帮助我们高效地对上万、百万，甚至亿级数据进行去重的呢？

python-数据去重

行走的小菜头

08-03

1102

简单去重 scrapy去重 scrapy-redis 去重布隆去重

使用python bloomfilter实现大文本去重

Jepson的博客

04-24

1048

需求：项目中在收集数据的时候，遇到日志中存在大量的重复记录，数据在入库之前需要先对日志文件做一个处理，滤掉重复的事件 bloomfilter原理参考文章：python BloomFilter(布隆过滤器) 项目环境：python3.7 需要安装的模块包：pybloom-live-3.0.0 下载pybloom_live-3.0.0.tar.gz后，直接执行pip install pybloom_l...

Python面试题整理-牛客网

mysteryflower的专栏

01-20

3666

1、[单选题]关于Python内存管理，下列说法错误的是 A. 变量不必事先声明 B. 变量无须先创建和赋值而直接使用 C. 变量无须指定类型 D. 可以使用del释放资源解析1：B Python 是弱类型脚本语言，变量就是变量，没有特定类型，因此不需要声明。但每个变量在使用前都必须赋值，变量赋值以后该变量才会被创建。用 del 语句可以释放已创建的变量（已占用的资源）。解析2： 1.变量无需事先声明 2.变量无需指定类型 3.程序员不用关心内存管理 4.变量名会被“回收” 5.del语句能够直.

【建议收藏】50 道硬核的 Python 面试题

k15778864599的博客

09-18

602

题目001: 在Python中如何实现单例模式。方法一：使用装饰器实现单例模式。方法二：使用元类实现单例模式。题目002：不使用中间变量，交换两个变量`a`和`b`的值。方法一：方法二：题目003：写一个删除列表中重复元素的函数，要求去重后元素相对位置保持不变。如果愿意也可以把上面的函数改造成一个生成器，代码如下所示。题目004：假设你使用的是官方的CPython，说出下面代码的运行结果。运行结果：上面代码中的结果是但的结果是，这一点的确让人费

最全python爬虫面试笔试题及答案汇总，三万多字，持续更新，适合新手，应届生

热门推荐

u012424313的博客

07-03

1万+

目录一些经典的Python爬虫和网络编程面试题... 1 1、动态加载又对及时性要求很高怎么处理？... 1 2、分布式爬虫主要解决什么问题？... 1 3、什么是 URL？... 1 4、python 爬虫有哪些常用技术？... 1 5、简单说一下你对 scrapy 的了解？... 1 6、Scrapy 的优缺点?. 1 7、scrapy 和 request?. 1 8、五层...

Python面试题基础篇，50道硬核面试题，等你来看

npm_run_dev__的博客

09-14

291

Python面试题基础篇，50道硬核面试题，快来看看吧

一份Python面试宝典

weixin_54707168的博客

01-18

330

Python面试宝典题目001: 在Python中如何实现单例模式。点评：单例模式是指让一个类只能创建出唯一的实例，这个题目在面试中出现的频率极高，因为它考察的不仅仅是单例模式，更是对Python语言到底掌握到何种程度，建议大家用装饰器和元类这两种方式来实现单例模式，因为这两种方式的通用性最强，而且也可以顺便展示自己对装饰器和元类中两个关键知识点的理解。方法一：使用装饰器实现单例模式。 from functools import wraps def singleton(cls): ""

Python实现大文件排序的方法

09-21

主要介绍了Python大文件排序的方法,涉及Python针对文件、缓存及日期等操作的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下

txt行去重排序（考虑了大数据）

05-05

前几天上面有一个小任务是对于大数据txt文件，以行为单位去重排序，刚写完，就放了上来，有图形化界面，注释很全面。有对于小文件的考虑，也有对于大文件的考虑。

python大文件去重_python大ip文件排重

weixin_39933082的博客

12-04

163

1 需求：整理个IP列表，需要将IP去重下，统计一共多少来源本来想直接shell命令解决，简单的 sort 管道 uniq 然后wc下无奈文件太大，条数多，处理效率不堪文件大概5G，几亿条数据吧2 PLAN A 未遂shell处理：#timesortip|uniq|wc-l然后没啥反应了。。。。其实是在处理中，最后被我ctrl c了3 PLAN B没办法写个简单的python，...

Python数据去重

夜空下的凝视

04-12

8428

普通去重： """ 去重并按原文件顺序排序 """ from time import time print('开始去重...') start = time() new_list = [] for line in open(r'e:/Python/mypy/test.txt', 'r+'): new_list.append(line) new_list2 = list(set(new_l...

C语言变量作用域

weixin_41489908的博客

07-30

227

希望你每天醒来都是阳光的，不会因为别人的几句话，几个表情和几个举止影响自己的心情，好好生活，总会遇见美好的事。。。 ---- 网易云热评一、块作用域 b只能在大括号中使用，出了大括号就不能用了二、函数作用域参数和局部变量，a，b，d只能在该函数中可以用三、进程作用域全局变量，c在整个程序中都可被调用四、文件作用域静态全局变量，e变量只能在helloworld.c文件中调用，比如在该项目总新建一个test2.c文件，里面是不能调用e变...

python对超大JSON大文件的按行去重，利用每行的hash值对文件去重。

qq_44993593的博客

02-12

1067

由于文件的体积过大（GB级别），因此不可能全部放进内存中进行去重，只能先分成许多小文件然后对多个小文件进行排序去重，最后多个小文件合并成一个大的文件。将多个文件的当前行保存到堆中，通过堆排序来获取最小值行并加入到大文件中，获取后更新该文件的当前行。最近在做一个文件的按行去重任务，要求是对超大的json文件按行去重。最后，将去重后的小文件合并合并到一个文件中，因为切分大文件时按行计算。来将该行写入了对应的文件，因此，各个文件之间是没有重复的行的。

python行数据去重_【Python】百万行二维数据如何去重排序

weixin_34434948的博客

02-04

278

二维数据的特点就是数据锁定，就是对一个数据分量操作，另外一个也要同时得到相应的操作，就是说这两个数据具有联动性。而对于我们非专业的，接触的几百万行数据，格式多为txt，而这种格式却无法保持联动性，而这也是我们处理此类问题需要解决的首要问题。在这里我提供的解决思路就是利用Python中的字典进行操作。字典的特点是：键唯一，但值随意。这里的唯一就是一个很好的去重方式，但是考虑到二维数据的联动性，这里需...

python大量数据去重

08-30

在Python中，可以使用集合（set）来实现大量数据的去重操作。集合是一种无序且不重复的数据结构，非常适合用于去除重复元素。以下是一种常用的方法： ```python data = [1, 2, 3, 4, 5, 1, 2, 3, 6, 7, 8, 9, 5] ...