基础统计是应用机器学习中的有力工具,它可以更好地理解数据。而且,它也为更先进的线性代数运算和机器学习方法奠定了基础的工具,例如分别协方差矩阵和主成分分析(PCA)。因此,掌握线性代数中基础的统计非常重要。
在本教程中,你会了解基础的统计操作及其原理,和如何使用NumPy实现线性代数的符号和术语。
完成本教程后,你将知道:
期望值,平均数(average)和平均值(mean)是什么,以及如何计算它们。
方差和标准差是多少以及如何计算它们。
协方差,相关性和协方差矩阵是什么以及如何计算它们。
让我们开始吧。
本教程分为4个部分; 他们是:
期望值
方差
协方差
协方差矩阵
期望值
概率论中,随机变量X的平均值称为期望值(expected value 或 expectation)。
期望值使用符号E,变量的名称用方括号括起;例如:
E[X]
它通过计算的概率权重值的和得出。
E[X] = sum(x1 * p1, x2 * p2, x3 * p3, ..., xn * pn)
在一些简单的情况下,例如掷硬币或掷骰子,每个事件的概率都是一样的。这时,期望值为所有值的总和乘以数值个数的倒数。
E[X] = sum(x1, x2, x3, ..., xn) . 1/n
在统计学中,平均值或者说,算术平均值或样本平均值可以通过从域中抽取的实例样本进行估计。这也许会让人感到迷惑,因为平均值(mean),平均值(average)和期望值(expected)可以互换使用。
平均值(mean)由小写的希腊字母mu表示,并且使用观察样本计算得出,而不是使用所有可能的值计算。
mu = sum(x1, x2, x3, …, xn) . 1/n
或者,缩写为:
mu = sum(x . P(x))
其中x是观测值的矢量,P(x)是每个值的估计概率。
当为特定变量(如x)计算时,平均值用上面一行的小写变量名表示,称为x-bar。
_
x = sum from 1 to n (xi) . 1/n
可以通过使用mean()函数为NumPy中的矢量或矩阵计算算术平均数。
下面的例子定义了一个6个元素的矢量并计算平均值。
from numpy import array
from numpy import mean
v = array([1,2,3,4,5,6]