【自然语言处理】常见的文本相似度计算方法

最新推荐文章于 2024-08-19 00:07:43 发布

「已注销」

最新推荐文章于 2024-08-19 00:07:43 发布

阅读量1.7k

点赞数 1

分类专栏： Algorithm Python 文章标签： python 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LU_ZHAO/article/details/104860830

版权

本文介绍了自然语言处理中常用的文本相似度计算方法，包括欧几里得距离、余弦距离、Jaccard相似度、汉明距离和最小编辑距离。这些方法在微博热点话题推荐、问答系统、推荐系统等场景中有广泛应用。

摘要由CSDN通过智能技术生成

文章来源于：https://zhuanlan.zhihu.com/p/88938220

引言

在自然语言处理中，我们经常需要判定两个东西是否相似。

比如，在微博的热点话题推荐那里，我们需要比较微博之间的相似度，让相似度高的微博聚集在一起形成一个簇，提出一个主题。

在问答系统中，比如说人工客服，我们需要提前准备好问题和一些答案，让用户输入的问题与题库中的问题进行相似度的比较，最后输出答案。

在推荐系统中，我们需要提取一个用户的所有物品，在根据这个物品找到对应的用户群，比较两个用户之间的相似性，在进行相应的推荐（协同过滤）。

在对语料进行预处理的时候，我们需要给予文本的相似度，把相似度高的重复主题过滤掉。

总之，相似度是一种非常有用的工具，可以帮助我们解决很多问题。

任务目标

一般来说，是比较两个物体（商品，文本。。）之间的相似度。这里的相似度是一个抽象的值，它可以抽象成估计的百分比。

在推荐工程中，计算相似度是为了给用户推送一定量的物品。即把所有的相似度排序，然后选出最高的那几个物品。

人是很容易判断出物品的相似度的，人们会在心里有一个考量。那么程序如何判断呢？

这里呢？

如果是文本分析，它首先就要用到分词技术，然后去掉不必要的词（语气词，连接词。。）。然后对词给一个抽象的量表

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。