目录
1 期望值(Expectation)
一件事情有n种结果,每一种结果值为 x i x_i xi,发生的概率记为 p i p_i pi,那么该事件发生的期望为:
E = ∑ i = 1 n x i p i E=\sum_{i=1}^{n}{x_i}{p_i} E=i=1∑nxipi
2 偏差(Bias)
定义: 描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。
S 2 = 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-f(x_i))}^2 S2=n1i=1∑n(yi−f(xi))2
y i y_i yi 表示预测值, f ( x i ) f(x_i) f(xi) 表示真实值。 偏差描述了准确性。
3 方差(Variance)
3.1 总体方差(Population Variance)
定义: 描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。
σ 2 = E [ ( X − μ ) 2 ] \sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]
其中: μ \mu μ 为全体平均数。方差描述了稳定性。
注:
上面的式子需要知道 X X X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
3.2 样本方差(Sample Variance)
定义: 在真实世界中,除非在某些特殊情况下,找到一个总体的真实的方差是不现实的。因此,从总体中取出 n n n个样本 ,用各样本值与样本算数平均数的离差平方的平均数对 σ 2 \sigma^2 σ2进行估计。
有偏估计: 现实中往往并不清楚 X X X服从什么分布,但若知道 μ \mu μ的真值,则可对 X X X采样,并通过下式来估计 σ 2 \sigma^2 σ2:
S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}{(X_i-\mu)}^2