余弦定理----相似性计算

原创 2013年12月03日 20:34:47

在向量中,余弦定理为

 cos(x) = <a,b> / |a||b|


通常用这个来进行相似度计算但这里计算的前提是a,b两个向量空间维数要对齐,(通常操作都是进行归一化,例如两个不一致时要维数小的向大的看齐)

由于夹角越小表现为两个向量越接近重合(也就是越相似),表现到这个公式上就是cos(x)得到的值较大;


所以通常用这个余弦定理来进行相似度计算



句1:  我是中国的学生

句2:  我来自于中国的北京


则进行相似度计算前需要完成以下几步。

1,转化为向量

2,向量对齐


总体词汇 切分为:{我, 中国,学生,来自于,北京}

则句1:   

1, 1, 1 ,0 , 0

句2:

1, 1 , 0 , 1 , 1

这样可以用cos(x)进行求值,这个值就是两个句子的相似度





相关文章推荐

Java实现余弦定理计算文本相似度

相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如...

余弦定理的应用:基于文字的文本相似度计算

最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。 ...

灰度投影法和余弦定理用于阵列图像分类

一直在断断续续的做些阵列相机的研究,在用阵列相机进行拍照的时候,镜头并非是同时拍摄,而是各镜头按照一定顺序轮流拍摄,理论上阵列相机拍照的次序是固定的。 如下图为阵列相机: 阵列相机拍摄次序: ...

利用余弦定理制作连杆效果

前些天看看MIT的公开课:折叠几何算法,里面演示了一段小程序,通过几根杆子的连接,可以将圆周运动转换为直线运动。效果是这样的: 问题源于蒸汽机的发明:如何将上下方向的活塞运动转化为推动轮子滚动的圆...

玲珑OJ1102 - 萌萌哒的第七题 【余弦定理】

1102 - 萌萌哒的第七题 Time Limit:2s Memory Limit:128MByteSubmissions:371Solved:38DESCRIPTION Feigay is doin...

余弦定理和新闻分类

新闻的特征向量 把文字的新闻变成一组可计算的数字,再设计一个算法类计算任意两篇新闻的相似性。 找一组数字(或者向量)描述一篇新闻,词是信息的载体,因此要对每个实词的重要性进行排序。 在“如何度量...

基于字的文本相似度算法——余弦定理

基于字的文本相似度余弦定理算法的原理是: (1)分别统计两个比较文本中所有字出现的频率,从而得出两个文本对应的向量 (2)利用余弦定理计算这两个向量的夹角余弦值 (3)根据自设置的阈值判断两个文本是否...
  • inrgihc
  • inrgihc
  • 2016年10月05日 18:32
  • 1138

数学之美之余弦定理与新闻分类

数学之美之余弦定理与新闻分类 By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。 在上一篇博客中,...

向量空间模型(VSM)的余弦定理公式(cos)

相信很多学习向量空间模型(Vector Space Model)的人都会被其中的余弦定理公式所迷惑..   因为一看到余弦定理,肯定会先想起初中时的那条最简单的公式cosA=a/c...
  • huaishu
  • huaishu
  • 2013年07月08日 18:39
  • 1057

文本相似度算法(余弦定理)

文本相似度算法(余弦定理) 最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 B...
  • itstt
  • itstt
  • 2013年09月09日 20:22
  • 11277
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:余弦定理----相似性计算
举报原因:
原因补充:

(最多只允许输入30个字)