Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性例子

最新推荐文章于 2022-09-18 19:16:36 发布

王哈哈er

最新推荐文章于 2022-09-18 19:16:36 发布

阅读量2.8k

点赞数 1

分类专栏： Python MongoDB Python 学习记录文章标签： Python Bloomfilter mongodb

本文链接：https://blog.csdn.net/weixin_41287692/article/details/82864787

版权

本文介绍了在Python环境下，如何利用Bloom Filter高效处理mongodb中的亿级数据量，实现快速判断数据唯一性。通过引入Pybloom库，演示了Bloom Filter的基本使用方法，包括添加元素、判断元素存在性等操作，以解决大数据量下的去重问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

工作需要使用 python 处理 mongodb 数据库两亿数据量去重复，需要在大数据量下快速判断数据是否存在

参考资料:https://segmentfault.com/q/1010000000613729

网上了解到 Bloom Filter ，Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构，它具有很好的空间和时间效率，被用来检测一个元素是不是集合中的一个成员。

关于 Bloom Filter 的详细介绍请参考：百度百科

使用Python可直接安装 Pybloom 包，这里已经实现了 Bloom Filter。

安装 Pybloom 包过程曲折，报错及解决办法在此：windows下python3.7安装pybloom报错解决办法

包安装成功后就可以愉快的使用了

使用例子如下：

from pybloom import BloomFilter

bf = BloomFilter(capacity=10000, error_rate=0.001)

bf.add("www.baidu.com")

print("www.baidu.com" in bf)   # True

print("www.douban.com" in bf)  # False
<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

王哈哈er

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python mongodb 异步_Python异步读写Mongodb(motor+asyncio)

weixin_39993623的博客

12-19

774

使用Python做大型计算任务时，并且用mongodb做数据储存时，常常面临大量读写数据库的情况。尤其是大量更新任务，由于不能批量操作，使用pymongo同步操作的话，相当耗时。使用多线程、多进程确实有效，但编写麻烦、消耗系统资源大(pymongo还不允许fork线程中共用连接)。这里主要瓶颈在于IO，使用单线程异步操作就会效果很好。Motor是一个异步mongodb driver，支持异步读写m...

【双人面经】python后端开发工程师--python基础，框架，数据库，消息队列等

最新发布

suzimuyu99的博客

12-22

1430

2024面试经验总结

参与评论您还未登录，请先登录后发表或查看评论

基于Mongodb OPIC策略布隆过滤器 Jsoup Crawler4j源码自己写的一个爬虫框架

liuyawen44的博客

10-11

1103

本人大三学生，最近突然对爬虫感兴趣，于是搜了搜Github 找到了一个比较简单的爬虫框架Crawler4j 当然我是学JAVA的，读了好久源码，想尝试着修改一下，写一个比较简单的自己的框架。当然，里面有很多抄袭的源码，更重要的抄袭了大神的思想，，但毕竟是学习，以提高自己能力为主，自己动手改一改，至少是把源码读懂了七七八八吧。。而且自我感觉多读源码对自己的编程能力还是有提高的。。

布隆过滤器（Bloom Filter）

qyf__123的博客

12-24

1195

布隆过滤器（Bloom Filter）简介及 python 实现

关于MongoDB数据库中文件唯一性的问题

weixin_30483495的博客

08-28

243

※重要※——介绍一下我的环境：MongoDB的“win32-x86_64-2008plus-ssl-3.0.5”，MongoVUE版本是1.6.9，VS2010，dll是1.10版本。 MongoDB中文件的上传试验①：使用VUE上传，{本地文件名相同，但文件内容不同}，在VUE中直接点击“Add Files”上传文件，此时VUE会检查你的文件名是否重复，若重复就会给出提示“是改名？or还是...

Python Index性能优化：提升索引效率的秘诀，让数据操作飞速提升

[Python Index性能优化：提升索引效率的秘诀，让数据操作飞速提升](https://ucc.alicdn.com/pic/developer-ecology/44kruugxt2c2o_1d8427e8b16c42498dbfe071bd3e9b98.png?x-oss-process=image/resize,s_500,m_lfit) ...

python爬虫面试题集锦及答案

AudiA6LV6的博客

09-18

7245

传统定义：分布式存储系统是大量 PC 服务器通过 Internet 互联，对外提供一个整体的服务。分布式存储系统具有以下的几个特性：可扩展：分布式存储系统可以扩展到几百台甚至几千台这样的一个集群规模，系统的整体性能线性增长。低成本：分布式存储系统的自动容错、自动负载均衡的特性，允许分布式存储系统可以构建在低成本的服务器上。另外，线性的扩展能力也使得增加、减少服务器的成本低，实现分布式存储系统的自动运维。

相关业务问题+系统问题+设计问题整理统计

热门推荐

张彦峰的博客

04-07

171万+

大量数据去重：Bitmap和布隆过滤器(Bloom Filter)

weixin_33913377的博客

08-03

597

2019独角兽企业重金招聘Python工程师标准>>> ...

BloomFilter——大规模数据处理利器

石头视角

11-22

352

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例　　为了说明Bloom Filter存在的重要意义，举一个实例：　　假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环...

BloomFilter布隆过滤器使用

tianyaleixiaowu的专栏

07-07

2万+

从上一篇可以得知，BloomFilter的关键在于hash算法的设定和bit数组的大小确定，通过权衡得到一个错误概率可以接受的结果。算法比较复杂，也不是我们研究的范畴，我们直接使用已有的实现。 google的guava包中提供了BloomFilter类，我们直接使用它来进行一下简单的测试。新建一个maven工程，引入guava包 com.go

五个解决方案让MongoDB拥有RDBMS的鲁棒性事务

架构师日记

08-08

1031

摘要：在现实世界中，有很多场景都会用到事务这个特性，这也是NoSQL横行下传统RDBMS仍占统治地位的原因，近日MongoDB公司Antoine分享了5个解决方案，用以解决MongoDB文档间的事务问题。【编者按】在分布式存储解决方案中谈事务一直是件很痛苦的事情，而事务也成了大部分NoSQL解决方案短板所在。近日，MongoDB公司的Antoine Girbal在其个人博客上撰文，分享了在Mo

千万别用MongoDB？

麦田守望者

08-08

1万+

某人发了一篇Don’t use MongoDB的血泪控诉，我把原文翻译如下，你可以看看。不过，我想我们还要去看看10gen CTO的对此事的回复，我们还要去在Reddit上看看大家的说法，10gen CTO的对此事的回复后面也有一堆人在讨论这个事，还有一些程序员开始去读MongoDB的源码了，呵呵。看样子，说MongoDB的这些事并不是真的。　　10gen CTO 对此事的并不完全知道，其

Mongodb千万级数据在python下的综合压力测试及应用探讨

weixin_33779515的博客

11-21

308

曾经在收集数据的项目中，用过mongodb的数据存储，但是当数据很大的时候，还是比较的吃力。很可能当时的应用水平不高，也可以是当时的服务器不是很强。所以这次能力比以前高点了，然后服务器比以前也高端了很多，好嘞 ~再测试下。（更多的是单机测试，没有用复制分片的测试～）！相比较MySQL，MongoDB数据库更适合那些读作业较重的任务模型。MongoDB能充分利用机器的内存资源。如果机器的内存资源...

Mongodb亿级数据量的性能测试

weixin_33708432的博客

03-02

6209

进行了一下Mongodb亿级数据量的性能测试，分别测试如下几个项目：（所有插入都是单线程进行，所有读取都是多线程进行） 1）普通插入性能（插入的数据每条大约在1KB左右） 2）批量插入性能（使用的是官方C#客户端的InsertBatch），这个测的是批量插入性能能有多少提高 3）安全插入功能（确保插入成功，使用的是SafeMode.True开关），这个测的是安全插入性能会...

python--mongodb查询优化

weixin_43072954的博客

06-14

2693

最近在处理爬取之后存储在mongodb上的数据.数据量150w左右.整个流程为：提取所有存储在mongodb中的数据–数据转换–对接Java服务上redis–数据上线最初方案： from pymongo import MongoClient con = MongoClinet(host,port) collections = con[db][collection] # find({条件查询},{...

关于pandas 调用mongodb出Memory error错误

weixin_30781775的博客

12-19

319

其实就是内存不够了，我加载的数据是800多万，数据量太大出错下面试错误提示 C:\Users\souwayai\Miniconda3\python.exe D:/www/use_pandas/pd7.pyTraceback (most recent call last): File "D:/www/use_pandas/pd7.py", line 14, in <module> ...

Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性 例子

Python 操作 mongodb 亿级数据量使用 Bloomfilter 高效率判断唯一性例子