1.向量相似性的计算
- 内积:
I < x , y > = ∑ i x i , y i I<x, y>=\sum_i x_i, y_i I<x,y>=i∑xi,yi
直观解释是:如果x大的地方y也比较大,x小的地方y也比较小,那么整体内积是偏大的,内积越大两个向量越相似。 - 余弦相似度:由于向量内积没有界限,一种解决办法是除以长度之后再求内积
C o s S i m ( x , y ) = ∑ i x i y i ∑ i x i 2 ∑ i y i 2 = < x , y > ∣ ∣ x ∣ ∣ ∣ ∣ y ∣ ∣ CosSim(x,y) = \frac{\sum_ix_iy_i}{\sqrt{\sum_ix_i^2}\sqrt{\sum_iy_i^2}}=\frac{<x, y>}{||x||||y||} CosSim(x,y)=∑ixi2∑iyi2∑ixiyi=∣∣x∣∣∣∣y∣∣<x,y>
余弦相似度与向量的幅值无关,只与向量的方向相关。 - 皮卡尔逊相关系数:余弦相似度受到向量的平移影响,上式如果将 x x x平移到 x + 1 x+1 x+1余弦值就会改变,如何才能保证平移不变性,就是下面要说的皮卡尔逊相关系数:
Corr ( x , y ) = ∑ i ( x i − x ‾ ) ( y i − y ‾ ) ∑ ( x i − x ‾ ) 2 ∑ ( y i − y ‾ ) 2 = ⟨ x − x ‾ , y − y ‾ ⟩ ∥ x − x ‾ ∥ ∥ y − y ‾ ∥ = cossim ( x − x ‾ , y − y ‾ \operatorname{Corr}(x, y)=\frac{\sum_{i}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum\left(x_{i}-\overline{x}\right)^{2}} \sqrt{\sum\left(y_{i}-\overline{y}\right)^{2}}}=\frac{\langle x-\overline{x}, y-\overline{y}\rangle}{\|x-\overline{x}\|\|y-\overline{y}\|}=\operatorname{cossim}(x-\overline{x}, y-\overline{y} Corr(x,y)=∑(xi−