余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
即求向量a和向量b的夹角的余弦。
这个推倒应该是比较简单的
=
放到一个多维向量的情况。
根据词频(词出现的次数)来计算余弦相似度。 首先用词频创建两个句子的向量:
句子A:(1,1,2,1,1,1,0) //代表的是每个词频。
句子B:(1,1,1,0,1,1,1)
cos(/theta)= 4/[3+6^(1/2)] = 0.73 基本接近1. 那么我们可以认为(/theta) 接近0 度 ,相似度很高。
这里使用到TF来算词频