https://www.zhihu.com/question/21824291
进一步引申, 各种相似度与点积关系的推演:
cosine相似度:
<img src="https://i-blog.csdnimg.cn/blog_migrate/849febd47131cc902cf40563b1e2800c.png" data-rawwidth="475" data-rawheight="105" class="origin_image zh-lightbox-thumb" width="475" data-original="https://pic1.zhimg.com/b3cad9985752850c108eb998aaabd318_r.jpg">
Pearson相关系数:
- 修正cosine考虑的是对item(商品) i打过分的每个user u,其打分的均值,
- Pearson考虑的是每个item i 的被打分的均值
![](https://i-blog.csdnimg.cn/blog_migrate/41d878abb6a87764e9463a5908cecdc5.png)
进一步引申, 各种相似度与点积关系的推演:
- cosine相似度,其实就是归一化后的点积结果,
- Pearson相关系数是去中心化&归一化的点积结果
- 修正cosine相似度,也是去中心化&归一化的点积结果,与Pearson的差别就在于去中心化的差异(上面描述的)
公式参考如下:
点积: <img src="https://i-blog.csdnimg.cn/blog_migrate/759429ecc9b93a6267a9c0691d5402bc.png" data-rawwidth="319" data-rawheight="70" class="content_image" width="319">![](https://i-blog.csdnimg.cn/blog_migrate/759429ecc9b93a6267a9c0691d5402bc.png)
cosine相似度:
<img src="https://i-blog.csdnimg.cn/blog_migrate/849febd47131cc902cf40563b1e2800c.png" data-rawwidth="475" data-rawheight="105" class="origin_image zh-lightbox-thumb" width="475" data-original="https://pic1.zhimg.com/b3cad9985752850c108eb998aaabd318_r.jpg">
![](https://i-blog.csdnimg.cn/blog_migrate/849febd47131cc902cf40563b1e2800c.png)
Pearson相关系数:
![](https://i-blog.csdnimg.cn/blog_migrate/3aae88740d1a3043ced3a13fc9928cc4.png)
若要用修正余弦相似度则需要确定每类商品中哪些是用户a打的分哪些是用户b打的分,哪些是用户c打的分。。。,而若用皮尔逊相关系数则不需要商品的用户信息,只需要不同商品的样本即可。
https://www.zhihu.com/question/19734616?sort=created
要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下:
<img src="https://pic3.zhimg.com/50/0dfac74fd0cc7e4670fc04e15a5d79e2_hd.png" data-rawwidth="381" data-rawheight="67" class="content_image" width="381">![](https://i-blog.csdnimg.cn/blog_migrate/261c22046420e5b2e301277155fdb422.jpeg)
Pearson相关系数公式如下:
<img src="https://pic2.zhimg.com/50/95c7b4484dc46f28390c4de96c83b915_hd.png" data-rawwidth="430" data-rawheight="62" class="origin_image zh-lightbox-thumb" width="430" data-original="https://pic2.zhimg.com/95c7b4484dc46f28390c4de96c83b915_r.png">![](https://i-blog.csdnimg.cn/blog_migrate/acce544d0e075cb96d1654299380854d.png)
由公式可知,Pearson相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,例如,现在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的,如下图:
<img src="https://pic3.zhimg.com/50/e7579024b7774f6f9b7fa80588e53532_hd.png" data-rawwidth="406" data-rawheight="374" class="content_image" width="406">![](https://i-blog.csdnimg.cn/blog_migrate/9c2a501721c14dfcbd1b06d09a4a744c.png)
为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准差,容易得出,pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。《数据挖掘导论》给出了一个很好的图来说明:
<img src="https://pic2.zhimg.com/50/e31afcd8a6fa446a5b5b0bdd87606f1d_hd.png" data-rawwidth="561" data-rawheight="383" class="origin_image zh-lightbox-thumb" width="561" data-original="https://pic2.zhimg.com/e31afcd8a6fa446a5b5b0bdd87606f1d_r.png">![](https://i-blog.csdnimg.cn/blog_migrate/6bdceb82137a3f68483d988cdcb37b33.png)