余弦相似度
余弦相似度通过测量两个向量内积空间的余弦值来度量它们之间的相似性,尤其适用于任何维度的向量比较中,因此属于高维空间应用较多的机器学习算法。通常来说,数字图像包含的特征码较多,而这些特征组就属于高维空间,这正是余弦相似度算法应用的范围,算法将每个图像的特征组转化为高维空间的向量,
两个向量之间的角度之余弦值可用于确定两个向量是否大致指向相同的方向。
在图像分类中应用余弦相似度算法的关键在于:
计算这些代表每个图像特征的向量的内积空间的夹角余弦值,从而度量图像之间的相似性。对于相似性的衡量标准有以下两种:
-
为相似性设置一个阈值,在这个阈值以内的都属于同一类别图像。这种标准可以将图像划分为多种类型,例如:高楼不但属于城市美景,而且属于写字楼景观。
-
选择与样本向量的余弦相似度最接近1的图像为该类别图像。这种标准只能将图像划分为一种类别。
(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

(2)两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦
类似的。对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)。能够使用类似于夹角余弦的概念来衡量它们间的相似程度。


夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小。夹角余弦越小表示两向量的夹角越大。