python jieba 文本相似度_python+jieba+tfidf算法 文本相似度

本文介绍了如何结合jieba分词和gensim的TFIDF算法计算文本相似度。首先,通过jieba对文本进行分词,然后使用gensim的corpora、models和similarities模块将文本转换为稀疏向量并建立索引,最终计算出相似度。示例中,创建了两个语料库文件和一个待比较文件,结果显示它们之间的相似度分别为16.6%和15.7%。这种方法对于理解论文查重原理具有一定启示。
摘要由CSDN通过智能技术生成

jieba是python第三方库,用于自然语言处理,对文本进行分词,当然也有其他的分词库。

gensim库,利用TFIDF算法来进行文本相似度计算,通过利用gensim库的corpora,models,similarities处理后续。

基本思路:jieba进行分词,整理为指定格式->gensim库将要对比的文档通过doc2bow转化为稀疏向量->再通过models中的tf-idf将语料库进行处理->特征值和稀疏矩阵相似度建立索引->最后的到相似结果。

接下来:

我创建两个文本文件,作为语料库,另外再创建一个文本文件,作为需要对比的文件。内容是百度随便找的,就拿稀疏向量和稀疏矩阵的百度百科吧。分别(d1,d2)(d3)d3去对比d1,d2

import jieba

from gensim import corpora,models,similarities

from collections import defaultdict #用于创建一个空的字典,在后续统计词频可清理频率少的词语

#1、读取文档

doc1="./d1.txt"

doc2="./d2.txt"

d1=open(doc1,encoding='GBK').read()

d2=open(doc2,encoding='GBK').read()

#2、对要计算的文档进行分词

data1=jieba.cut(d1)

data2=jieb

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值