python进行简单的文本相似度分析

本文通过gensim和jieba包利用TF-IDF模型进行文本相似度分析,探讨了TF-IDF模型的原理和核心思想,并展示了Python代码及执行结果,揭示了不同文档间的相似度关系。
摘要由CSDN通过智能技术生成

python进行简单的文本相似度分析

本文利用gensim包、jieba包和TF-IDF模型进行简单的文本相似度分析。从而能够让我们确定,哪句话和哪句话相似程度是多少。文本相似度分析是自然语言处理中常用的一种分析方法,也是一个重要的分析方法。

TF-IDFM模型

1.模型的原理:是一个语料另一种表示;是一种语料的词权重表示,是词的一种加重技术;是一套自定义的计算模型方法。
2.直观的核心思想是:字词的重要性与文档中出现的频数成正比,与语料库中出现的频数成反比。

python 代码模块

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import jieba
from gensim import corpora,models,similarities

doc0 = "糖葫芦真的很好吃"
doc1 = "我就很喜欢糖葫芦"
doc2 = "北京的糖葫芦很有名"
doc3 = "这算是一个北京的特色小吃了吧"
doc4 = "你喜欢吃啥"
doc5 
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值