CS229课程笔记9：分类问题的Bias-Variance分解，经验风险最小化

最新推荐文章于 2022-10-07 10:12:39 发布

silent56_th

最新推荐文章于 2022-10-07 10:12:39 发布

阅读量617

点赞数

分类专栏： cs229 机器学习文章标签：机器学习深度学习算法

本文链接：https://blog.csdn.net/silent56_th/article/details/78874617

版权

cs229 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

机器学习

4 篇文章 0 订阅

订阅专栏

基于least square的bias-variance分解十分常见

E (y^- y) 2 = E (y^- E τ y^+ E τ y^- y) 2 = E (y^- E τ y^) 2 + E (y - E τ y^) 2 = V a r (y^) + B i a s 2 (y^, y)

$E(\hat y-y)^2 = E(\hat y-E_\tau\hat y+E_\tau\hat y-y)^2=E(\hat y - E_\tau\hat y)^2+E(y-E_\tau\hat y)^2=Var(\hat y)+Bias^2(\hat y,y)$
其中

y^ $\hat y$ 为预测值，

y $y$ 为真值，

E(x) $E(x)$ 为

x $x$ 基于数据真实分布的期望，

Eτ(x) $E_\tau(x)$ 为

x $x$ 对训练集

τ $\tau$ 的期望。
对于分类问题，平方差误差并不常作为criterion，Ng给出了一个直观上的Bias-Variance分解，基于经验风险（Empirical Risk）的目标函数。首先严格探讨了方程集有限的情况，然后给出了方程集合无限的直观理解。

Empirical Risk Minimization (ERM)

给出定义：
存在某个备选方程集合 $H=\{h_1,h_2,\cdots,h_k\}$ ，其中每个 $h_i$ 都是从 $R^n$ 到 $\{0,1\}$ 的映射。
每一个方程的风险定义为 $\epsilon (h) = E_{x,y}1\{(h(x)\neq y\}=P_{(x,y)\sim D}(h(x)\neq y)$ 。
经验风险是风险基于训练集的估计，其定义为

ϵ^(h)=1m∑i=1m1{h(xi)≠yi}

$\hat \epsilon(h) = \frac 1 m \sum_{i=1}^m1\{h(x_i)\neq y_i\}$
经验风险最小化即求取

h^=argminh∈Hϵ^(h) $\hat h =\arg\min_{h\in H}\hat \epsilon(h)$ 。

方程集有限的情况 $|H|<\infty$

定义 $h^*=\arg\min_{h\in H}\epsilon(h)$ ， $\epsilon(h^*)$ 取决于方程集与数据分布，不受训练集控制，视为bias。而 $\hat h$ 是训练得到的 $h^*$ 的近似， $\epsilon(\hat h)$ 与 $\epsilon(h^*)$ 之间的差异视为variance，是由训练集采样引入的。即对 $\epsilon(\hat h)$ 进行分解，得到 $\epsilon(h^*)$ 是bias，差异值视为variance。

1. $\hat \epsilon(h)$ VS $\epsilon(h)$

假设 $\epsilon (h) = E_{x,y}1\{(h(x)\neq y\}=P_{(x,y)\sim D}(h(x)\neq y)=p$ , 则有 $\hat \epsilon$ 与 $\epsilon$ 之间实际为采样误差。

定义 $z_i = 1\{h(x_i)\neq y_i\}$ ，则有 $z_i\sim B(p)$ ，即符合概率为 $p$ 的伯努利分布。而 $\hat\epsilon(h)=\frac 1 m\sum_{i=1}^mz_i$ 符合采样数为 $m$ 概率为 $p$ 的二项式分布（根据定义），从而有 $E(\hat\epsilon(h)) = \epsilon(h)$ ， $Var(\hat \epsilon(h))=m\epsilon(h)(1-\epsilon(h))$ 。

基于Hoeffding不等式，我们有 $P(|\epsilon(h)-\hat\epsilon(h)|>\gamma)\le 2\exp(-2\gamma^2m)$ 。

2. $\forall h$ $\hat \epsilon(h)$ VS $\epsilon(h)$

P (\forall h \in H, | ϵ (h) - ϵ^(h) | \leq γ) = P (\neg \exists h | ϵ (h) - ϵ^(h) | > γ) = 1 - P (\exists h | ϵ (h) - ϵ^(h) | > γ) \geq 1 - P (| ϵ (h) - ϵ^(h) | > γ) \times | H | = 1 - 2 k exp (- 2 γ 2 m)

3. $\hat\epsilon(\hat h)$ VS $\epsilon(h^*)$

ϵ (h^) \leq ϵ^(h^) + γ \leq ϵ^(h *) + γ \leq ϵ (h *) + 2 γ

$\epsilon(\hat h) \le \hat \epsilon(\hat h)+\gamma\\ ~~~~~~~~~\le \hat \epsilon(h^*)+\gamma\\ ~~~~~~~~~~\le \epsilon(h^*)+2\gamma$
其中第一个和第三个不等式由

P(∀h∈H,|ϵ(h)−ϵ^(h)|≤γ)≥1−2kexp(−2γ2m) $P(\forall h\in H,|\epsilon (h)-\hat \epsilon (h)|\le \gamma)\ge 1 - 2k\exp(-2\gamma^2m)$ 引入，第二个不等式由

h^=argminh∈Hϵ^(h) $\hat h =\arg\min_{h\in H}\hat \epsilon(h)$ 引入。第一个和第三个不等式同时成立的概率至少为

(1−2kexp(−2γ2m))2 $(1 - 2k\exp(-2\gamma^2m))^2$ ，即两者不相关。

值得注意的是这是一个比较宽泛的上限，给出的更多是直观的指导性意见。因为不等式推导过程中并没有使用 $h^*=\arg\min_{h\in H}\epsilon(h)$ 这个条件，所以对于任意 $h$ ，均有 $\epsilon(\hat h)\le \epsilon(h^*)+2\gamma$ 。根据此指导性意见，可以推出一个采样复杂度的概念，即需要多少训练样本才能保证 $\epsilon(\hat h)$ 与 $\epsilon(h^*)$ 足够小。结论如下：

m = O (1 γ 2 log k δ)

$m=O(\frac 1 {\gamma^2}\log \frac k \delta)$
其中

γ $\gamma$ 为

|ϵ(h^)−ϵ(h∗)|/2 $|\epsilon(\hat h)-\epsilon(h^*)|/2$ ，即能够忍受的最大误差值的一半；

k=|H| $k=|H|$ 即方程集大小；

1−δ $1-\delta$ 为置信率，即上诉不等式成立的概率。注意到通常情况下

γ $\gamma$ 与

δ $\delta$ 的设定在同一个问题下保持稳定，所以采样数量是方程集大小的对数函数，随模型复杂度增长缓慢。

方程集无限的情况 $|H|\ge \infty$

Ng首先给出了一个直观上易于理解但是不严谨的证明：设模型参数个数为 $d$ ，每个都是用 $64$ bit表示的浮点数，所以方程集大小实际是有限的， $k=|H|\le 2^{64d}$ ，进而 $m=O(d)$ ，即采样率与参数个数是线性关系。这也符合实际情况。

严格的证明是基于VC维的，结论是类似的：设 $d$ 为 $H$ 的VC维，

P (| ϵ (h) - ϵ^(h) | \leq O (d m log m d + 1 m log 1 δ - - - - - - - - - - - - - - - - \sqrt)) \geq 1 - δ ϵ (h^) \leq ϵ (h *) + O (d m log m d + 1 m log 1 δ - - - - - - - - - - - - - - - - \sqrt)

$P(|\epsilon(h)-\hat \epsilon(h)|\le O(\sqrt{\frac d m\log \frac m d+\frac 1 m \log \frac 1 \delta}))\ge 1-\delta\\ \epsilon(\hat h)\le \epsilon(h^*)+O(\sqrt{\frac d m\log \frac m d+\frac 1 m \log \frac 1 \delta})$
进而

m=O(d) $m=O(d)$ ，在

δ $\delta$ 和

γ $\gamma$ 固定的情况下。

silent56_th

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CS229课程笔记9：分类问题的Bias-Variance分解，经验风险最小化

基于least square的bias-variance分解十分常见 E(y^−y)2=E(y^−Eτy^+Eτy^−y)2=E(y^−Eτy^)2+E(y−Eτy^)2=Var(y^)+Bias2(y^,y)E(\hat y-y)^2 = E(\hat y-E_\tau\hat y+E_\tau\hat y-y)^2=E(\hat y - E_\tau\hat y)^2+E(y-E_\tau\h
复制链接

扫一扫