方差 公式: Var = E[(X-μ)²] = E[X²-2Xμ+μ²] = E(X²)-2μ²+μ² = E(X²)-μ² (*) 最后推出方差就是平方的均值减去 均值的平方 皮尔逊相关系数 ①协方差就是看两个变量是否正负相关,也就是数值上变化是否同或反向; ②相关系数直接衡量的就是线性相关关系,取值就在+-1之间,体现的含义是X和Y多大程度在一条斜率存在且不为0的直线上; 距离向量 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。 cos(x)=∑xiyi∑x2i‾‾‾‾‾√∑y2i‾‾‾‾‾√ 问题: 在做聚类分析时,我发现用余弦相似度和皮尔逊相关系数作为相似性度量所得到聚类结果有一定差异。请问,这两者有什么区别? 1.如果数据密集(所有数据几乎都有属性值,属性值量级重要),就用欧几里德算法 2.数据受级别膨胀影响(不同的用户使用不同的评分标准),就用皮尔逊相关系数算法 3.数据稀疏性强,就考虑用夹角余弦相似度算法 计算相似值会非常小,因为用户之间的交集本来就很少,这样对于计算结果来讲是很不准确的,这个时候就需要余弦相似度了,余弦相似度进行计算时会自动略过这些非零值。 https://www.zhihu.com/question/20852004/answer/129508585