协方差
举例:身高和体重的相关关系
红色比蓝色多,整体上身高体重是正相关的。
要和所有点都比较(如第5个点要和前面4个点都比较一次,生成4个新的矩形),那么和均值比较的效果一样,每个点只用与均值进行比较。
把坐标原点移到均值的位置,容易知道,一三象限是正相关,二四象限是负相关的
用红色区域的面积-蓝色区域的面积,判度相关性。红色区域的是正的,蓝色区域为负的
虽然通过这个式子,判度了身高、体重的相关性,但它还不是协方差!!!还有个小问题,
再加入两个样本点,此时均值没有发生变化,坐标点还是原来的位置
按照算法,身高、体重负相关了,与直觉不符,啥问题呢?
新加入的两个样本,要么又矮又胖,要么又高又瘦,出现的概率极低。
加入概率因素,求得的平均值,称为加权平均。将原点移到加权平均的位置,式子的均值就被替换为加权平均,此时坐标系和各个点已经不重要,对每一项乘以相应的概率,每个区域都有不同程度缩小。
152*0.11+160*0.24+172*0.22+175*0.26+180*0.14+147.8*0.02+187.8*0.01=168.494
学习资料:搜索_哔哩哔哩-bilibili
皮尔逊相关分析
注:式中的协方差没有考虑概率的影响(坐标原点就是X,Y的平均值)