sklearn tfidf求余弦相似度_使用余弦相似度算法计算文本相似度

在工作中一直使用余弦相似度算法计算两段文本的相似度和两个用户的相似度。一直弄不明白多维的余弦相似度公式是怎么推导来的。今天终于花费时间把公式推导出来,其实很简单,都是高中学过的知识,只是很多年没用了,都还给老师了。本文还通过一个例子演示如果使用余弦相似度计算两段文本的相似度。

介绍一个书,吴军老师的数学之美,当时我花了一个通宵的时间看完这本书。书中使用余弦定理准确的进行新闻分类、拼音输入法的数学原理文章,让我脑洞大开,原来数学是如此的重要,能解决IT行业如此多的问题。

余弦函数在三角形中的计算公式为:

6ea7c0b03592991a065519300bd1d7c4.png

在直角坐标系中,向量表示的三角形的余弦函数是怎么样的呢?下图中向量a用坐标(x1,y1)表示,向量b用坐标(x2,y2)表示。

9c4ee292492ca407a8395f911b44abd4.png

向量a和向量b在直角坐标中的长度为

3c8705e06fb6862b314b488c17c570d0.png

,向量a和向量b之间的距离我们用向量c表示,就是上图中的黄色直线,那么向量c在直角坐标系中的长度为

746085914b40a8dbc9408cb6bbbbea99.png

,将a,b,c带入三角函数的公式中得到如下的公式:

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值