最近需要对这些概念做个系统的梳理,所以写篇博客记录一下。
均值
均值是描述一个数据平均值的概念
公式为:
假设一组数:[2,2,3,5,5,7,8],其均值为4.57.
标准差
标准差是 观察值和均值之间的平均距离。
即每个样本减去均值的平方和在除以n-1。
例如下面两组数据,[0,8,12,20]和[8,9,11,12]两个集合的均值都是10,但两个集合的差别很大,前者的标准差是8.3,后者是1.8。后者较为几种,故标准差较小些。
协方差
方差和标准差是用来描述一维数据的,当出现多维数据时,则需要协方差。例如小学需要统计多学科的考试成绩。或者想了解两个随机变量的关系的统计量。
方差的定义为:
那么协方差为:
针对二维样本集合,反应两个维度之间的相关性。计算的值为正数时,是正相关,负数时是负相关。
针对三位样本集合时,求出的是各个维度总体的相关性,针对各个维度之间的关系。且用的是协方差矩阵。
这个B站视频讲的协方差比较好
这个视频讲协方差矩阵比较好
欧式距离
欧式距离是m维空间两个点的真实距离,计算公式如下: