matlab实现余弦相似度_机器学习基础：相似度和距离度量究竟是什么

最新推荐文章于 2024-06-15 21:31:13 发布

weixin_39883374

最新推荐文章于 2024-06-15 21:31:13 发布

阅读量812

点赞数 1

文章标签： matlab实现余弦相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39883374/article/details/112283796

版权

相似度度量和距离度量在整个机器学习领域都是非常基础的概念，数据科学家 Gonzalo Ferreiro Volpi 近日通过浅显易懂的推荐系统示例介绍了这些概念以及它们的计算方式。

选自 Medium，作者：Gonzalo Ferreiro Volpi，机器之心编译，参与：Panda。

在推荐系统中，我们经常谈到「相似度度量」这一概念。为什么？因为在推荐系统中，基于内容的过滤算法和协同过滤算法都使用了某种特定的相似度度量来确定两个用户或商品的向量之间的相等程度。所以总的来说，相似度度量不仅仅是向量之间的距离。

注：我的所有工作都可在我的 GitHub 页面查看：https://github.com/gonzaferreiro，其中当然也包括本文内容的代码库以及有关推荐系统的更多内容。

在任意类型的算法中，最常见的相似度度量是向量之间夹角的余弦，即余弦相似度。设 A 为用户的电影评分 A 列表，B 为用户的电影评分 B 列表，那么它们之间的相似度可以这样计算：

从数学上看，余弦相似度衡量的是投射到一个多维空间中的两个向量之间的夹角的余弦。当在多维空间中绘制余弦相似度时，余弦相似度体现的是每个向量的方向关系（角度），而非幅度。如果你想要幅度，则应计算欧几里德距离。

余弦相似度很有优势，因为即使两个相似的文件由于大小而在欧几里德距离上相距甚远（比如文档中出现很多次的某个词或多次观看过同一部电影的某用户），它们之间也可能具有更小的夹角。夹角越小，则相似度越高。

如下例所示，来自 www.machinelearningplus.com

上图统计了 sachin、dhoni、cricket 这三个词在所示的三个文档中的出现次数。据此，我们可以绘出这三个向量的图，从而轻松地看出衡量这些文档的余弦和欧几里德距离的差异：

最低0.47元/天解锁文章

weixin_39883374

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
matlab实现余弦相似度_机器学习基础：相似度和距离度量究竟是什么

相似度度量和距离度量在整个机器学习领域都是非常基础的概念，数据科学家 Gonzalo Ferreiro Volpi 近日通过浅显易懂的推荐系统示例介绍了这些概念以及它们的计算方式。选自 Medium，作者：Gonzalo Ferreiro Volpi，机器之心编译，参与：Panda。在推荐系统中，我们经常谈到「相似度度量」这一概念。为什么？因为在推荐系统中，基于内容的过滤算法和协同过滤算法都使用了...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。