python进行简单的文本相似度分析
本文利用gensim包、jieba包和TF-IDF模型进行简单的文本相似度分析。从而能够让我们确定,哪句话和哪句话相似程度是多少。文本相似度分析是自然语言处理中常用的一种分析方法,也是一个重要的分析方法。
TF-IDFM模型
1.模型的原理:是一个语料另一种表示;是一种语料的词权重表示,是词的一种加重技术;是一套自定义的计算模型方法。
2.直观的核心思想是:字词的重要性与文档中出现的频数成正比,与语料库中出现的频数成反比。
python 代码模块
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import jieba
from gensim import corpora,models,similarities
doc0 = "糖葫芦真的很好吃"
doc1 = "我就很喜欢糖葫芦"
doc2 = "北京的糖葫芦很有名"
doc3 = "这算是一个北京的特色小吃了吧"
doc4 = "你喜欢吃啥"
doc5