协方差矩阵
我们都知道,方差是用来描述数据离散程度的,但那是在一维的情况下,当遇到多维数据的时候,我们可以为每一维度计算各自的方差。然而, 每一维度的数据并不会是独立的,比如身高和体重就存在一定的关联,如果我们只考虑各个维度的方差,难免会丢失一些信息,因此,便引入了协方差矩阵。
我们先来看看协方差矩阵的数学公式定义:
cov ( X , Y ) = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) n − 1 \operatorname{cov}(\mathrm{X}, \mathrm{Y})=\frac{\sum_{\mathrm{i}=1}^{\mathrm{n}}\left(\mathrm{X}_{\mathrm{i}}-\overline{\mathrm{X}}\right)\left(\mathrm{Y}_{\mathrm{i}}-\overline{\mathrm{Y}}\right)}{\mathrm{n}-1} cov(X,Y)=n−1∑i=1n