python实现文本检索-文本相似度算法

最新推荐文章于 2024-07-22 21:38:50 发布

爱学习的小肥猪

最新推荐文章于 2024-07-22 21:38:50 发布

阅读量4.9k

点赞数 3

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/heima201907/article/details/103727548

版权

本文介绍了如何使用Python实现文本检索，重点讲解了基于Word2vec的词语相似度计算模型，利用gensim库和jieba进行中文分词。通过分步实现，包括设置cut_all和HMM参数，以及构建停用词表，来达到计算文本相似度的目的。

摘要由CSDN通过智能技术生成

目的

给定一个或多个搜索词，如“高血压患者”，从已有的若干篇文本中找出最相关的(n篇)文本。

理论知识

文本检索（text retrieve）的常用策略是：用一个ranking function根据搜索词对所有文本进行排序，选取前n个，就像百度搜索一样。

算法：模型选择

1、基于word2vec的词语相似度计算模型
2、python的实现用到了gensim库
3、“jieba”中文分词

分步实现：

jieba.cut

方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用
HMM 模型构建停用词表

[Python] 纯文本查看 复制代码

?

1

2

3

stop_words = 'demo/stop_words.txt'

stopwords = codecs.open(stop_words,'r',encoding='utf8').readlines()

stopwords = [ w.strip() for w in stopwords ]

结巴分词后的停用词性 [标点符号、连词、助词、副词、介词、时语素、‘的’、数词、方位词、代词]

[Python] 纯文本查看 复制代码

?

1	`stop_flag` `=` `['x',` `'c',` `'u','d',` `'p',` `'t',` `'uj',` `'m',` `'f',` `'r']`

对一篇文章分词、去停用词

[Python] 纯文本查看 复制代码

?

1

最低0.47元/天解锁文章

爱学习的小肥猪

关注

3
点赞
踩
39

收藏

觉得还不错? 一键收藏
4
评论
python实现文本检索-文本相似度算法

目的给定一个或多个搜索词，如“高血压患者”，从已有的若干篇文本中找出最相关的(n篇)文本。理论知识文本检索（text retrieve）的常用策略是：用一个ranking function根据搜索词对所有文本进行排序，选取前n个，就像百度搜索一样。算法：模型选择 1、基于word2vec的词语相似度计算模型 2、python的实现用到了gensim库 3...
复制链接

扫一扫

专栏目录

爱学习的小肥猪 CSDN认证博客专家 CSDN认证企业博客

码龄5年

1277: 原创

13万+: 周排名

38万+: 总排名

65万+: 访问

: 等级

1万+: 积分

78: 粉丝

142: 获赞

59: 评论

894: 收藏

私信

关注

热门文章

分类专栏

最新评论

Unity控制台显示C++代码中Log
pythonwait: 请问一下这个无法显示中文是什么原因呢
华为OD两轮技术面试
哒佬: 华为OD机试【2大宝典】再次上新题 ① Python 解华为机试题：https://dream.blog.csdn.net/article/details/129221789 ② C++ 解华为机试题：https://dream.blog.csdn.net/article/details/129472919
python实现文本检索-文本相似度算法
不会NLP: 能分享一下源码吗？谢谢
一文看懂马尔科夫过程
荣华.岁月: 博主，看不到图呀
浅析网站性能
liugang0605: 系统网站应用出现过卡顿，但却不知道如何优化。国内第一篇讲如何减少卡顿的代码级别详细文章，也是性能优化系列文章中的一篇，欢迎点赞、关注，也欢迎对其中的内容进行评论。 https://juejin.cn/post/7159807927908302884 史上最全的火焰图详解，一文让你读懂什么是火焰图前世今生，巧用工具来快速分析性能情况，便捷实现系统调优。 https://juejin.cn/post/7157519564828311583

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。