python jieba 文本相似度_python+jieba+tfidf算法文本相似度

最新推荐文章于 2024-08-09 11:26:01 发布

weixin_39534149

最新推荐文章于 2024-08-09 11:26:01 发布

阅读量748

点赞数

文章标签： python jieba 文本相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39534149/article/details/111446844

版权

本文介绍了如何结合jieba分词和gensim的TFIDF算法计算文本相似度。首先，通过jieba对文本进行分词，然后使用gensim的corpora、models和similarities模块将文本转换为稀疏向量并建立索引，最终计算出相似度。示例中，创建了两个语料库文件和一个待比较文件，结果显示它们之间的相似度分别为16.6%和15.7%。这种方法对于理解论文查重原理具有一定启示。

摘要由CSDN通过智能技术生成

jieba是python第三方库，用于自然语言处理，对文本进行分词，当然也有其他的分词库。

gensim库，利用TFIDF算法来进行文本相似度计算，通过利用gensim库的corpora，models，similarities处理后续。

基本思路：jieba进行分词，整理为指定格式->gensim库将要对比的文档通过doc2bow转化为稀疏向量->再通过models中的tf-idf将语料库进行处理->特征值和稀疏矩阵相似度建立索引->最后的到相似结果。

接下来：

我创建两个文本文件，作为语料库，另外再创建一个文本文件，作为需要对比的文件。内容是百度随便找的，就拿稀疏向量和稀疏矩阵的百度百科吧。分别(d1,d2)(d3)d3去对比d1，d2

import jieba

from gensim import corpora,models,similarities

from collections import defaultdict #用于创建一个空的字典，在后续统计词频可清理频率少的词语

#1、读取文档

doc1="./d1.txt"

doc2="./d2.txt"

d1=open(doc1,encoding='GBK').read()

d2=open(doc2,encoding='GBK').read()

#2、对要计算的文档进行分词

data1=jieba.cut(d1)

data2=jieb

最低0.47元/天解锁文章

weixin_39534149

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。