python语言模型工具_Gensim

最新推荐文章于 2021-03-12 01:37:07 发布

weixin_39755952

最新推荐文章于 2021-03-12 01:37:07 发布

阅读量160

点赞数

文章标签： python语言模型工具

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39755952/article/details/113989981

版权

Gensim是Python中用于主题建模和文本相似度计算的工具包。在商品评论分析中，通过计算评论与商品描述的相似度可以评估评论的客观性。本文介绍了如何利用Gensim的TF-IDF算法计算文本相似度，以及余弦相似度在搜索引擎中的应用。步骤包括文本分词、计算TF-IDF值和计算相似度。

摘要由CSDN通过智能技术生成

软件简介

Gensim是一个相当专业的主题模型Python工具包。在文本处理中，比如商品评论挖掘，有时需要了解每个评论分别和商品的描述之间的相似度，以此衡量评论的客观性。评论和商品描述的相似度越高，说明评论的用语比较官方，不带太多感情色彩，比较注重描述商品的属性和特性，角度更客观。gensim就是

Python 里面计算文本相似度的程序包。

示例代码：

针对商品评论和商品描述之间的相似度，怎么使用gensim来计算？

原理

1、文本相似度计算的需求始于搜索引擎。

搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度，从而把最相似的排在最前返回给用户。

2、主要使用的算法是tf-idf

tf：term frequency 词频

idf：inverse document frequency 倒文档频率

主要思想是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

第一步：把每个网页文本分词，成为词包(bag of words) 。

第三步：统计网页(文档)总数M。

第三步：统计第一个网页词数N，计算第一个网页第一个词在该网页中出现的次数n，再找出该词在所有文档中出现的次数m。则该词的tf-idf 为：n/N * 1/(m/M) (还有其它的归一化公式，这里是最基本最直观的公式)

第四步：重复第三步，计算出一个网页所有词的tf-idf 值。

第五步：重复第四步，计算出所有网页每个词的tf-idf 值。

3、处理用户查询

第一步：对用户查询进行分词。

第二步：根据网页库(文档)的数据，计算用户查询中每个词的tf-idf 值。

4、相似度的计算

使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小，越相似。

weixin_39755952

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python语言模型工具_Gensim

软件简介Gensim是一个相当专业的主题模型Python工具包。在文本处理中，比如商品评论挖掘，有时需要了解每个评论分别和商品的描述之间的相似度，以此衡量评论的客观性。评论和商品描述的相似度越高，说明评论的用语比较官方，不带太多感情色彩，比较注重描述商品的属性和特性，角度更客观。gensim就是Python 里面计算文本相似度的程序包。示例代码：针对商品评论和商品描述之间的相似度，怎么使用gens...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。