数学期望 Expectation
序言
机器学习中涉及到的很多概念都和 Expectation 相关联,例如:
- 任何分布,我们都关心其 均值 mean、方差 variance、峰度 kurtosis、偏度 skewness;实际上都和数据期望相关;这些内容还和 中心距 以及 泰勒级数 相关联
- 机器学习中,针对模型的泛化能力 Generalization,常见对 泛化误差 decompose 为 Bias(偏差,欠拟合) 和 Variance(方差,过拟合)。这一过程就是利用 Expectation 推导的
- 最大期望算反 EM,明显地和 Expectation 有关联,其是利用了 Expectation 进行推导
所以本文特此明确一下这个基础概念。
期望的定义
The average value of some function f(x) under a probability distribution p(x) is called the expectation of f(x) .
如果 p(x) 是均匀分布的话,我们其实就是求一个函数 f(x) 的平均值而已;如果函数不同的值出现概率不同,我们当然要考虑 p(x) ,来求解真正期望出现的值。标准公式如下(discrete or continuous):
E[f]=∑xp(x)f(x) or E[f]=∫p(x)f(x)dx
- 期望的操作符号特意用了 E 和一般的 error E 区分开。
- 期望的核心在于函数值分布
p(x) 。其实根据不同的分布我们还能拓展期望的概念,例如 p(x|y) 的条件分布,可以产出 条件期望 conditional expectation;本文不予展开。 - 另外,统计中的 期望,在几何也有对应的 重心,是一个对质量函数的加权积分。
采样 sample
我们不一定能精确地用公式求解出 E[f] ,但我们可以直接对 f(x) 采样,采样得到的值直接求均值 sample mean 来近似出 E[f] (函数期望 约为 函数采样均值 ):
E[f]≈1N∑i=1Nf(xi)
当 N 趋向无穷大,约等于 变为 等于。
运算规则
期望 Expectation 作为一个运算符,有着如下4条运算规则:
(假设
- E(c)=c
- E(cX)=cE(X)
- E(X+Y)=E(X)