TF-IDF文本去重学习（TF-IDF和simhash）

最新推荐文章于 2024-07-06 20:19:20 发布

abc15766228491

最新推荐文章于 2024-07-06 20:19:20 发布

阅读量2.8k

点赞数 2

分类专栏： c++算法入门题目文章标签： tfidf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abc15766228491/article/details/82683515

版权

c++算法入门题目专栏收录该内容

89 篇文章

订阅专栏

本文介绍了两种常用的文本相似度计算方法：TF-IDF 和 simhash。TF-IDF 通过提取文章关键词并计算其权重来判断文本相似度；simhash 则通过对文本进行分词、计算词权重及哈希值等步骤生成向量，最后通过比较向量间的差异来评估相似度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

鉴于每次面试都会问这个，还是总结一下吧，毕竟没坏处

TF-IDF

我们是用tf-idf进行文本去重的，其实是用tf-idf将两篇文章的关键词提取处出来，然后比对两篇文章的关键词，大于某个阈值，则判定为两篇文章相似

TF为词频，算法为：这个词出现的次数除以这个文章的总词数

公式如下：

这里写图片描述

IDF为逆文档频率，如果这个词在每篇文章中都有过，那么他的IDF就比较小，可以用它避免那些停用词的影响，算法为：log(总文章数除以出现这个词的文章数)

公式如下：

这里写图片描述

TF*IDF得到这个词语的权重，按照这个权重对这个文章中出现的词语进行计算，得到一个词向量，取前topK个词语，对文章库中所有的文章都得到这样一个词向量，进行比对相似度即可。

simhash的具体过程如下：

1、先将文本进行分词

2、计算这个文章中每个词语的权重weight（可以用tf-idf计算）

3、得到每个词语的hash值，是一串0，1序列

4、用这个词语的权重和这个词语产生的hash值进行运算，如果hash为0，则这个hash位上的值变为-weight，否则为weight。

5、对这个文章中所有的词产生的向量相加，产生一个新的向量，如果该位置为负数，则置为0，否则置为1。

6、比对两篇文章的向量，按位比较，记录不同的位的个数，设置阈值，如果不同位的个数超过了这个阈值则判定为不相似

下面盗个图，感觉描述的挺好的

这里写图片描述

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。