一文读懂余弦相似度

    在探究机器学习问题时,我们常常需要比较两篇作文的相似度有多高,网上的两篇新闻的相似度有多高,两个用户对于不同电视剧的喜好相似度有多高,在求解这类问题时,实际上是在计算他们之间的余弦相似性。那么究竟什么是余弦相似度,什么又是余弦距离,它又是如何判断两篇新闻的相似度的?

余弦相似度和余弦距离

    首先来看上图的两个向量a和b,余弦相似性就是使用a和b之间的夹角的余弦值作为度量,关注的是两个向量间的夹角,并不关注它们之间的绝对值的大小。当两个向量间的夹角越小,两个向量就越相似。其公式可以定义为:

    由其定义可以得出余弦相似度的取值范围为[-1,1],相同的两个向量之间的相似度为1。用1减去余弦相似度即为余弦距离:1-cos(A,B),那么显然余弦距离的取值范围为[0,2],相同的两个向量间的距离为0。

余弦距离是否是一个严格定义上的距离呢?

    首先来看一下距离的定义:在一个集合中,如果每一对元素均可唯一确定一个实数,使得正定性,对称性,三角不等式成立,则该实数可称为这对元素之间的距离。下面来一一证明:

正定性:

对称性:

三角不等式:

所以余弦距离不是严格定义上的距离。

    总体来说余弦距离体现的是方向上的差异,比如在分析用户活跃程度时,以登录次数和观看时长为特征,A用户为(1,10),B用户为(10,100),余弦距离会认为A和B很接近,但是A和B的活跃程度有巨大的差异,此时应当使用欧氏距离。

回到开头,如何判断两则新闻的相似性呢,步骤如下:

(1)按照分词方法对新闻进行分词

(2)取出每篇文章中的若干关键词,合并成一个集合,计算每篇文章对于这个 集合中的词的词频

(3)组成各自的词频向量

(4)计算两篇文章词频向量的相似度,相似度越大两篇文章就越相似

下面我们以一段话为例来计算它们的相似性:

A:我喜欢跑步,不喜欢打篮球

B:我不喜欢跑步,也不喜欢打篮球

(1)分词

A:我/喜欢/跑步,不/喜欢/打/篮球

B:我/不/喜欢/跑步,也/不/喜欢/打/篮球

(2)列出所有的词

 我,喜欢,跑步,打,不,也,篮球

(3)统计每句话的词频

A:我(1),喜欢(2),跑步(1),打(1),不(1),也(0),篮球(1)

B:我(1),喜欢(2),跑步(1),打(1),不(2),也(1),篮球(1)

(4)写出词频向量

A:[1,2,1,1,1,0,1]

B:[1,2,1,1,2,1,1]

(5)使用余弦相似度公式计算A与B的相似程度

所以A和B的相似性为0.832。

此外在文本,图像,视频等领域,研究的对象维度非常高的情况下,余弦相似度依然有很广泛的应用。

更多内容请扫二维码关注博主微信公众号:程序员大管

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值