机器学习（六）统计学习理论

最新推荐文章于 2020-03-11 15:21:03 发布

goodluckcwl

最新推荐文章于 2020-03-11 15:21:03 发布

阅读量4.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习统计学习

本文链接：https://blog.csdn.net/u014230646/article/details/79502899

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

统计学习理论的意义

统计学习理论提供了机器学习的一个理论基础。通过理论推导，从本质上说明了机器学习为什么会出现过拟合现象，以及过拟合与模型选择、训练数据之间有什么关系。

数学推导

设训练集 $S=\{(x_i, y_i) \}_{i=1}^m$ ,所有的 $(x_i,y_i)$ 独立同分布（Independent and identical distribution），则我们可以定义分类器 $h_{\theta}$ 测试误差（这里指的是在训练集上的误差）为(Empirical Risk)：

ε^(h θ) = 1 m \sum i = 1 m I (h θ (x i) \neq y i)

$\hat{\varepsilon}(h_\theta) = \frac{1}{m} \sum_{i=1}^m I(h_\theta(x_i) \ne y_i)$
其中，函数

I(x) I ( x ) $I(x)$ 是一个示性函数，这个误差的定义非常好理解。
接着我们定义分类器

hθ h θ $h_{\theta}$ 的增广误差为（Generalization Risk）

ε (h θ) = P (x, y) (h (x) \neq y) = \int h θ (x, y) \neq y p (x, y) d x d y

$\begin {aligned} \varepsilon (h_\theta) &= P_{(x,y)}(h(x)\ne y) \\\ &= \int_{h_\theta (x,y) \ne y} p(x,y) dxdy \end {aligned}$
这里的增广误差是指在真实世界中出现的各种情况的误差的平均。显然，测试误差并不能反映真实情况。那么，测试误差与真实的误差之间有多大的差距呢？前人的研究得到这样的一个结论

P (| ε (h θ - ε^(h θ)) | > δ) \leq 2 e - 2 δ 2 m

$P(|\varepsilon(h_\theta - \hat{\varepsilon}(h_\theta))|>\delta) \le 2 e^{-2\delta^2m}$
也就是说，真实误差与测试误差之间相差大于

δ δ $\delta$ 的概率小于

2e−2δ2m 2 e − 2 δ 2 m $2 e^{-2\delta^2m}$ 。上式右边与训练样本数m是相关的。训练样本越多，测试误差与真实误差之间的差距大于某个值的概率会越小。下面我们来证明上式，先看一个引理。

引理：设 $z_1, z_2,...,z_m$ 是 $m$ 个独立随机变量，满足 $P(z_i=1)=\phi, P(z_i=0)=1-\phi \$ (i=1~m)
定义：

ϕ^= 1 m \sum i = 1 m z i

$\hat{\phi}=\frac{1}{m}\sum_{i=1}^mz_i$
则有

P (| ϕ^- ϕ | > δ) \leq 2 e - 2 δ 2 m

$P(|\hat{\phi} - \phi|>\delta) \le 2 e^{-2\delta^2m}$
上式叫做Hoeffiding不等式，Hoeffding不等式是关于一组随机变量均值的概率不等式。证明如下。
证明：定义

z i = I (h θ (x i) \neq y i)

$z_i=I(h_\theta(x_i)\ne y_i)$

P (z i = 1) = ε (h θ)

$P(z_i=1)=\varepsilon(h_\theta)$
而

ε^(h θ) = 1 m \sum i = 1 m z i

$\hat{\varepsilon}(h_\theta) = \frac{1}{m} \sum_{i=1}^m z_i$
所以

P (| ϕ^- ϕ | > δ) \leq 2 e - 2 δ 2 m

$P(|\hat{\phi} - \phi|>\delta) \le 2 e^{-2\delta^2m}$

假设对一个分类器h来说， $h_\theta$ 只有有限个取值，设取值个数为 $K$ 。设 $H=\{h_\theta\}_{\theta = 1 \to K}$ ,则

P (\exists h θ ϵ H, | ε (h θ) - ε (h θ)^| > δ) \leq 2 K e - 2 δ 2 m

$P(\exists h_\theta \epsilon H, |\varepsilon(h_\theta)-\hat{\varepsilon(h_\theta)}|>\delta) \le 2Ke^{-2 \delta ^2 m}$

P (\exists h θ ϵ H, | ε (h θ) - ε (h θ)^| < δ) \leq 1 - 2 K e - 2 δ 2 m

$P(\exists h_\theta \epsilon H, |\varepsilon(h_\theta)-\hat{\varepsilon(h_\theta)}|<\delta) \le 1- 2Ke^{-2 \delta ^2 m}$
设

2Ke−2r2m=δ 2 K e − 2 r 2 m = δ $2Ke^{-2r^{2m}}=\delta$ ,则有

r = 1 m log (2 K g) - - - - - - - - - \sqrt

$r=\sqrt{\frac{1}{m} \log(\frac{2K}{g})}$

P (\exists h θ ϵ H, | ε (h θ) - ε (h θ)^| < 1 m log (2 K g) - - - - - - - - - \sqrt) \leq 1 - δ

$P(\exists h_\theta \epsilon H, |\varepsilon(h_\theta)-\hat{\varepsilon(h_\theta)}|<\sqrt{\frac{1}{m} \log(\frac{2K}{g})}) \le 1- \delta$

定理：
假设 $\hat{\theta}=argmin_\theta \ \hat{\varepsilon}(h_\theta)$ , $\theta^*=argmin_\theta \ \varepsilon(h_\theta)$ ,则有

P (| ε (h θ^) - ε (h θ *) | \leq 2 r) > 1 - δ

$P(|\varepsilon(h_{\hat{\theta}})-\varepsilon(h_{\theta^*})| \le 2r) >1-\delta$

P (| ε (h θ^) - ε (h θ *) | \leq 1 m log (2 K g) - - - - - - - - - \sqrt) \geq 1 - 2 δ

$P(|\varepsilon(h_{\hat{\theta}})-\varepsilon(h_{\theta^*})| \le \sqrt{\frac{1}{m} \log(\frac{2K}{g})}) \ge1-2 \delta$
这样，我们就可以得到结论：
- 复杂的模型K大，但是

ε(hθ∗) ε ( h θ ∗ ) $\varepsilon(h_{\theta^*})$ 、

ε(hθ^) ε ( h θ ^ ) $\varepsilon(h_{\hat{\theta}})$ 变小
- 训练样本数m越多越好

补充：
这里写图片描述

VC维（Vapnik-Chervonenkis维）

衡量 $\theta$ 取无限值的分类器负责度
对m个样本任意的标（标签总数 $2^m$ 个），都有一个 $\theta$ 能把他们分开。满足上述条件的最大的m,叫做 $h_\theta$ 的VC维（d=m）。

例子
线性分类器的VC维是 $d+1$ ，假设样本对是 $(x,y)$ ,则d是x的维度。

定理：若假设空间H的VC维为d，则有：

P (| ε (h θ) - ε (h θ)^) \leq 8 d log 2 m e d + 8 log 4 δ m - - - - - - - - - - - - - - - - \sqrt > 1 - δ

$\begin {aligned} P(|\varepsilon(h_\theta)-\hat{\varepsilon(h_\theta)}) & \le \sqrt{\frac{8d\log{\frac{2me}{d}}+8\log{\frac{4}{\delta}}} {m} } \\\ & \gt 1-\delta \end {aligned}$

goodluckcwl

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习（六）统计学习理论

统计学习理论的意义统计学习理论提供了机器学习的一个理论基础。通过理论推导，从本质上说明了机器学习为什么会出现过拟合现象，以及过拟合与模型选择、训练数据之间有什么关系。数学推导设训练集S={(xi,yi)}mi=1S={(xi,yi)}i=1mS=\{(x_i, y_i) \}_{i=1}^m,所有的(xi,yi)(xi,yi)(x_i,y_i)独立同分布（Independent a...
复制链接

扫一扫