一、概率论中对数据的基本描述
1.均值:
2.标准差:
3.方差:
注解:
1. 均值是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是映数据集中趋势的一项指标。
平均数(均值)和标准差是描述数据集中趋势和离散程度的两个最重要的测度值。
2. 方差和标准差为什么要处以n-1.
详细解释可以参考 彻底理解样本方差为何除以n-1
二、协方差和协方差矩阵
标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,即含有多个随机变量,协方差就是一种用来度量两个随机变量关系的统计量
参照方差的定义:
来度量各个维度偏离其均值的程度,协方差可以这样来定义:
协方差的意义:如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义)。如果结果为负值, 就说明两者是负相关。如果为0,则两者之间没有关系,就是统计上说的“相互独立”。
协方差矩阵的定义:
举一个三维的例子,假设数据集有三个维度,则协方差矩阵为:
协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。