python 文件相似度分析_Python数据分析及可视化实例之文本处理文本相似度（29）...

最新推荐文章于 2024-03-09 14:12:32 发布

yan jay

最新推荐文章于 2024-03-09 14:12:32 发布

阅读量637

点赞数 1

文章标签： python 文件相似度分析

本文链接：https://blog.csdn.net/weixin_36337561/article/details/113538277

版权

系列文章总目录：Python数据分析及可视化实例目录

1.项目背景：

接上一期：Python数据分析之文本处理词频向量转换前奏词袋word2bow

PS趁热打铁

2.分析步骤：

（1）读取词典和文档；

（2）计算tf idf 和 lsi；

（3）生成相似度矩阵；

（4）计算相似度。

参考资料：基于tfidf 以及 lsi 的文本相似度分析

3.源码：

# coding: utf-8



# In[1]:

from gensim import corpora, models, similarities
from pprint import pprint


# 读取词典和文档，计算tf idf 和 lsi 的表达方式，并生成相似度矩阵
dictionary = corpora.Dictionary.load('../../tmp/deerwester.dict')
corpus = corpora.MmCorpus('../../tmp/deerwester.mm') # 上一示例中生成的数据
tfidf_model = models.TfidfModel(corpus)
corpus_tfidf = tfidf_model[corpus]  # TIDIF 逆文档频率
lsi_model = models.LsiModel(corpus_tfidf,id2word=dictionary,num_topics=2)
corpus_lsi = lsi_model[corpus_tfidf] # LSI 潜在语义索引
corpus_simi_matrix = similarities.MatrixSimilarity(corpus_lsi)
corpus_simi_matrix.save('../../tmp/deerwester.index')
similarities.MatrixSimilarity.load('../../tmp/deerwester.index') # 下次调用


# In[5]:

# 基于tfidf的文本相似度分析 
index = similarities.MatrixSimilarity(corpus_tfidf) 
vec_bow =[dictionary.doc2bow(text) for text in raw_data]   #把用户raw_data语料转为词包
all_reult_sims = []
times_v2 = 0 

###对每个用户预料与标准预料计算相似度

for i in vec_bow:    
     #直接使用上面得出的tf-idf 模型即可得出商品描述的tf-idf 值
    sims = index[tfidf_model[i]]
    sims = sorted(enumerate(sims), key=lambda item: -item[1])
    result_sims = []    
    for i,j in sims:
        result_sims.append([map_value_user[times_v2],map_value[i],j])
    times_v2 += 1
    all_reult_sims.append(result_sims[:20])
print(all_reult_sims)  # 查看前20条显示相似文本


# In[7]:

# 基于lsi的文本相似度分析 
index = similarities.MatrixSimilarity(corpus_lsi) 
vec_bow =[dictionary.doc2bow(text) for text in raw_data]  #把用户语料raw_data转为词包
all_reult_sims = []
times_v2 = 0 
for i in vec_bow:    
     #直接使用上面得出的tf-idf 模型即可得出商品描述的tf-idf 值
    sims = index[lsi[tfidf_model[i]]]
    sims = sorted(enumerate(sims), key=lambda item: -item[1])
    result_sims = []    
    for i,j in sims:
        result_sims.append([map_value_user[times_v2],map_value[i],j])
    times_v2 += 1
    all_reult_sims.append(result_sims[:20])
print(all_reult_sims)  # 查看前20条显示相似文本

新手可查阅历史目录：

yeayee：Python数据分析及可视化实例目录zhuanlan.zhihu.com

最后，别只收藏不关注哈

yan jay

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫