python进行简单的文本相似度分析

最新推荐文章于 2021-02-04 08:49:04 发布

iseeyounow2017

最新推荐文章于 2021-02-04 08:49:04 发布

阅读量1k

点赞数 1

分类专栏： Python 文章标签：自然语言处理 python

本文链接：https://blog.csdn.net/iseeyounow2017/article/details/105861838

版权

本文通过gensim和jieba包利用TF-IDF模型进行文本相似度分析，探讨了TF-IDF模型的原理和核心思想，并展示了Python代码及执行结果，揭示了不同文档间的相似度关系。

摘要由CSDN通过智能技术生成

python进行简单的文本相似度分析

本文利用gensim包、jieba包和TF-IDF模型进行简单的文本相似度分析。从而能够让我们确定，哪句话和哪句话相似程度是多少。文本相似度分析是自然语言处理中常用的一种分析方法，也是一个重要的分析方法。

TF-IDFM模型

1.模型的原理：是一个语料另一种表示；是一种语料的词权重表示，是词的一种加重技术；是一套自定义的计算模型方法。
2.直观的核心思想是：字词的重要性与文档中出现的频数成正比，与语料库中出现的频数成反比。

python 代码模块

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import jieba
from gensim import corpora,models,similarities

doc0 = "糖葫芦真的很好吃"
doc1 = "我就很喜欢糖葫芦"
doc2 = "北京的糖葫芦很有名"
doc3 = "这算是一个北京的特色小吃了吧"
doc4 = "你喜欢吃啥"
doc5

最低0.47元/天解锁文章

iseeyounow2017

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
python进行简单的文本相似度分析

python进行简单的文本相似度分析本文利用gensim包、jieba包和TF-IDF模型进行简单的文本相似度分析。从而能够让我们确定，哪句话和哪句话相似程度是多少。文本相似度分析是自然语言处理中常用的一种分析方法，也是一个重要的分析方法。TF-IDFM模型1.模型的原理：是一个语料另一种表示；是一种语料的词权重表示，是词的一种加重技术；是一套自定义的计算模型方法。2.直观的核心思想是：字...
复制链接

扫一扫

专栏目录