求海量文本中两两相似文本的快速算法

最新推荐文章于 2022-09-09 12:28:01 发布

huyanqing

最新推荐文章于 2022-09-09 12:28:01 发布

阅读量4.8k

点赞数 1

分类专栏：算法，数据挖掘文章标签：文本挖掘海量文本相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huyanqing/article/details/57398205

版权

本文介绍了在海量文本中寻找两两相似文本的快速算法，主要讨论了暴力求解的局限性和Map-Reduce思想的应用。通过前缀过滤原则，提出了PPjoin算法，该算法在ODPS平台上对几百万个文本以0.9为阈值进行计算，能在1小时内找出所有相似度大于0.9的文本对。

摘要由CSDN通过智能技术生成

问题描述

这个问题的输入是一个文本语料库，输出是语料库中相似度大于某个阈值的所有文本对，阈值可以是0.9或者0.8.

举个例子，比如我的输入是下面的语料库,我的阈值是0.6,我的相似度度量用的是文本中以字为单位的jaccard相似度

1. 福禄很可爱

2. 福禄真可爱

3. 福禄是可爱

4. 阿里巴巴牛逼

5. 阿里巴巴很牛逼

我的输出是:

文档ID文档ID相似度

1 2 0.66

1 3 0.66

4 5 0.8

暴力求解

看我上面的例子你可能觉得这很简单吗？大不了我用暴力计算，来一个二重循环，把语料库整个遍历一遍，不就算出来了吗？如果语料库中的文本数少，这么搞当然可以。

假设语料库中的文本数是N，这么算的复杂度是O(n^2),对海量文本来说，这简直是灾难，此路不通；

map-reduce思路

大数据时代，我们其实不缺计算资源，暴力求解的思路可以有map reduce的方法来求解

图1就是这个问题的一个map reduce解法的例子，其中RID代表文档号，a列是原始文本

最低0.47元/天解锁文章

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

huyanqing CSDN认证博客专家 CSDN认证企业博客

码龄22年

6: 原创

134万+: 周排名

87万+: 总排名

2万+: 访问

: 等级

271: 积分

4: 粉丝

5: 获赞

4: 评论

6: 收藏

私信

关注

热门文章

分类专栏

最新评论

求海量文本中两两相似文本的快速算法
Little Coder 回复 dajiahao1231: 可以用simhash + 余弦相似度
求海量文本中两两相似文本的快速算法
中泽回复 dajiahao1231: 我最近也在做文本去重，请问您现在问题解决了吗，用的什么方法
求海量文本中两两相似文本的快速算法
bblbsk 回复 dajiahao1231: 我最近也遇到，求文档相似的问题，不知道你现在用的什么方法
求海量文本中两两相似文本的快速算法
dajiahao1231: 最近在做文本查重最近在做文本查重的 1.尝试过simhash，速度快，准确度不行 2.用gensim 或者 sklearn TfidfTransformer求相似的话，对海量数据不太适应，速度不行有人正在做类似的么，一起做，加个好友，交流下博主的提到的ppjoin算法还没试，ppjoin的原理还是不太懂

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。