二、机器学习理论起点 ,模型及关键定理

最新推荐文章于 2024-09-29 20:19:36 发布

drawsky

最新推荐文章于 2024-09-29 20:19:36 发布

阅读量325

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/drawsky/article/details/78408242

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

考察一下极大似然估计，这是数理统计里面经典的参数估计模型。
设有样本 $（ x_i,y_i,i=1..n）$ ,假设模型为 $y=wx+b+\varepsilon,\varepsilon \sim N(0,\sigma^2)$ 。要估计参数 $w,b$ 把模型改变一下就有：

ε = y - w x - b = f (y, x; w, b) \sim N (0, σ 2)

$\varepsilon =y-wx-b =f(y,x;w,b)\sim N(0,\sigma^2)$ 由此得可以到

ε $\varepsilon$ 的分布函数，记为

ϕ(y,x;w,b) $\phi(y,x;w,b)$ .
改记函数：

L(y,x;w,b)=−ln(ϕ(yi,xi;w,b)) $L(y,x;w,b)=-ln(\phi(y_i,x_i;w,b))$
定义似然函数：

l (y ⃗, x ⃗; w, b) = 1 n \sum i = 1 n L (y i, x i; w, b)

$l(\vec y,\vec x;w,b)=\frac{1}{n}\sum_{i=1}^nL(y_i,x_i;w,b)$
最小化

l(y⃗ ,x⃗ ;w,b) $l(\vec y,\vec x;w,b)$ 就得到了

w、b $w、b$ 的参数值

w^、b^ $\hat w、\hat b$ ,于是我们得到了一个统计模型

y=w^x+b^ $y=\hat w x+\hat b$ .

考察一下这个模型，它是一个最优化模型：

i n f w, b \in R l (y ⃗, x ⃗; w, b) = i n f w, b \in R 1 n \sum i = 1 n L (y i, x i; w, b)

$\underset{w,b\in R}{inf}l(\vec y,\vec x;w,b)=\underset{w,b\in R}{inf} \frac{1}{n}\sum_{i=1}^nL(y_i,x_i;w,b)$
这里并不是要介绍极大似然方法的解法，而是更一般的来看看这个最优化模型：
1、

X,Y $X,Y$ 是两个随机变量，为了方便描述以后就统一记为

X $X$ ;
2、

l(y⃗ ,x⃗ ;w,b) $l(\vec y,\vec x;w,b)$ 是定义在随机变量上的带参数了函数，其实还是一个随机变量，以后记为

L(x;θ) $L(x;\theta)$
3、目标函数是

1n∑ni=1L(xi;θ) $\frac{1}{n}\sum_{i=1}^nL(x_i;\theta)$ ,是

L(x;θ) $L(x;\theta)$ 在样本上的均值。

在机器学习领域，将 $L(x;\theta)$ 称为损失函数，它是一簇函数,一般而言，它度量模型因变量预测值与观测量之间差异的损失，损失函数包含了模型信息包括模型参数，并且通常要求是非负的；将 $E(L(x;\theta) )$ 称为期望风险,记为 $R(\theta)$ ，要估计期望风险必须知道 $X$ 的分布函数，但是通常这是未知的。将 $\frac{1}{n}\sum_{i=1}^nL(x_i;\theta)$ 称为经验风险，记为 $R_{emp}(X_n,\theta)$ ，计算经验风险不需要知道分布。

一般的统计学习或者机器学的问题是求解最小化经验风险： $\underset{\theta \in \Lambda}{inf}R_{emp}(X_n,\theta)$ ，求得 $\theta$ ，这一方法称为经验风险最小化原则(ERP原则).

仿照大数定理改写一下极大似然估计的目标函数，希望下式成立，这样机器学习到的参数是一致的：

i n f θ \in Λ R e m p (X n, θ) \to p i n f θ \in Λ R (θ)

$\underset{\theta \in \Lambda}{inf} R_{emp}(X_n,\theta) \overset{p }\rightarrow \underset{\theta \in \Lambda}{inf} R(\theta)$
上面的表达式损失函数集

{L(x;θ)|θ∈Λ} $\{L(x;\theta)|\theta \in \Lambda\}$ 如果只有有限个元素，就将回到以前的普通的大数定理，这个时候上式必然成立。若损失函数集有无穷上多个元素，如下问题还成立吗？什么条件下成立？

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ a r g (l i m n \to \infty (i n f θ \in Λ R e m p (X n, θ))) = ? a r g (i n f θ \in Λ (R (θ ）)) = θ^l i m n \to \infty R e m p (X n, θ^) = ? R (θ^） (1)

$\begin{cases} arg\Biggl( \underset{n \rightarrow \infty }{lim}\Bigl(\underset{\theta \in \Lambda}{inf}R_{emp}(X_n,\theta) \Bigl) \Biggl)\overset{?}= arg\Biggl(\underset{\theta \in \Lambda}{inf}\Bigl(R(\theta）\Bigl)\Biggl) =\hat\theta \\ \\ \underset{n \rightarrow \infty }{lim}R_{emp}(X_n,\hat\theta) \overset{?} =R(\hat\theta） \end{cases} \qquad (1)$
如果问号不能去掉，机器可能学习到的是错误的参数。

定义：若 $\underset{\theta \in \Lambda}{inf}R_{emp}(X_n,\theta) \overset{p }\rightarrow \underset{\theta \in \Lambda}{inf} R(\theta)$ ，称为ERP原则一致的。

还有一种情况，若函数集 $\{L(x;\theta)|\theta \in \Lambda\}$ 包含这样一个函数 $\phi(x)$ ， $\underset{\theta \in \Lambda}{inf}L(x;\theta)>\phi(x)$ ,则必然导致

l i m n \to \infty (i n f θ \in Λ R e m p (X n, θ)) = i n f θ \in Λ R (θ ）

$\underset{n \rightarrow \infty }{lim}\Bigl(\underset{\theta \in \Lambda}{inf}R_{emp}(X_n,\theta) \Bigl)= \underset{\theta \in \Lambda}{inf}R(\theta）$ 在

ϕ(x) $\phi(x)$ 取得。这种情况称为 ERP方法平凡一致的，与损失函数集中的其他函数没有关系，所有问题到此为止。

(1) $(1)$ 依赖于函数集中的个别函数，需要刨除这种平凡的情况，因此需要对

{L(x;θ)|θ∈Λ} $\{L(x;\theta)|\theta \in \Lambda\}$ 做出一些约束。

定义：对函数集 $\{L(x;\theta)|\theta \in \Lambda\}$ 定义其子集：

$Λ (c) = {a ∣ \int L (x; a) d F (x) > c; a \in Λ}$ $\Lambda(c)=\{a\mid\int L(x;a)dF(x)>c\;;a\in\Lambda\}$
如果对函数集的任意非空子集 $\Lambda(c),c\in R$ 都有: $i n f θ n \in Λ (c) R e m p (X n, θ) \to p i n f θ \in Λ (c) R (θ)$ $\underset{\theta_n \in \Lambda(c)}{inf} R_{emp}(X_n,\theta) \overset{p }\rightarrow \underset{\theta \in \Lambda(c)}{inf} R(\theta)$
成立，则称ERM原则对函数集 $\{L(x;\theta)|\theta \in \Lambda\}$ 和概率分布函数是非平凡一致的。

说句废话，非平凡一致排除了函数集中个别函数外，仍然能保持ERP原则是一致的。
下文中如果提到ERP原则一致的，都指非平凡的。

那么什么条件下ERP方法是一致的呢？显然首先得要求 $|\int L(x;\theta)dF(x)|< \infty$ 真实风险发散了就什么都不要谈了。

Vapnik和Chervonenkis 两位大神在1989年就为我们找到了ERP原则是一致的得充要条件。

关键定理：设函数集满足 $|\int L(x;\theta)dF(x)|< \infty$ ，则有ERP原则一致性的充要条件是：

经验风险 $R_{exp}(X_n,\theta_n)$ 在函数集 $\{L(x;\theta)|\theta \in \Lambda\}$ 上如下意义的收敛于实际风险 $R(\theta)$ :

$l i m n \to \infty P (s u p θ \in Λ (R (θ) - R e m p (X n, θ)) > ε) = 0; \forall ε > 0 (2)$ $\underset{n \rightarrow \infty}{lim}P\biggl(\underset{\theta \in \Lambda }{sup}\big(R(\theta)- R_{emp}(X_n,\theta)\big)>\varepsilon\biggl)=0 ;\forall \varepsilon>0 \qquad (2)$

有没有嗅到大数定理的影子？关键定理告诉我们要保证学习一致性，先要保证 $(2)$ 成立，而 $2$ 左边是函数集 $\{L(x;\theta)|\theta \in \Lambda\}$ 上的泛函。
因此泛函上的大数定理是统计学习理论基础，这次真的升级了，从抽样调查升级到了统计学习。

要想直观的看清关键定理，先弄明白三件事：
1、 $R(\theta)=\int L(x;\theta)dF(x)< \infty$ ，中的概率分布 $F(x)$ 只要求保证 $R(\theta)<\infty$ ,没有其他要求；
2、对于任意一个指定的 $F(x)$ , $R(\theta)$ 是参数 $\theta$ 的函数，不是随机变量；
3、 $R_{emp}(X_n,\theta)=\frac{1}{n}\sum_{i=1}^nL(x_i;\theta)$ 是随机变量，因为 $x_i$ 是随机变量。

关键定理证明

先做些准备工作：

由于 $R(\theta)<\infty$ ,可以假定 $a\le R(\theta)\le b$ ,对 $a,b$ 做如下分割：
令： $a_1=a,a_m=b,a_{i+1}-a_{i}<\frac{\varepsilon}{2}，i=1..m-1$
根据有限覆盖定理，存在 $m<\infty$ .满足分割要求
这种分割之下，有:
            $\Lambda(b)=\Lambda(a_n) \subset ..\Lambda(a_k+1) \subset \Lambda(a_k)..\Lambda(a_1) =\Lambda(a)=\Lambda$
定义: $\hat\Lambda_{k}= \Lambda(a_k) /\Lambda(a_k+1),\;\hat\Lambda_{m}=\Lambda_{m}$
            $\hat\Lambda_{k}=\{\theta|\theta \in \Lambda(a_k+1),\theta \notin \Lambda(a_k)\,\},k=1..m-1$
则有：
1、 $\hat\Lambda_{k} \cap \hat\Lambda_{j}=\phi ,\forall i\neq j;\,\underset{i=1}{\overset{m}\cup}\hat\Lambda_{i}=\Lambda$
2、 $\underset{\theta \in \hat \Lambda_k}{sup}R(\theta)=a_{k+1} ,\;\underset{\theta \in \hat \Lambda _k}{inf}R(\theta)=a_{k}$
3、 $\underset{\theta \in \hat \Lambda _k}{sup}R(\theta)\le\underset{\theta \in \Lambda(a_{k+1})}{inf} R(\theta)=a_{k+1}<a_{k}+\frac{\varepsilon}{2}=\underset{\theta \in \Lambda(a_{k})}{inf} R(\theta)+\frac{\varepsilon}{2} \quad (2)$
注意 $(2)$ 式下文证明中两次用到,这是sup 转变为inf的关键。

“ $\Rightarrow :$ ”

对于任意的 $a_k$ ,定义事件 $T_k: \underset{\theta \in \Lambda(a_k)}{inf} R_{exp}(X_n,\theta) \lt \underset{\theta \in \Lambda(a_k)}{inf} R(\theta)-\frac{\varepsilon}{2}$
ERP原则一致性要求，有 $\underset{\theta \in \Lambda(a_k)}{inf} R_{exp}(X_n,\theta) \overset{p }\rightarrow \underset{\theta \in \Lambda(a_k)}{inf} R(\theta)$
得到 $\underset{n\rightarrow \infty} {lim}P(T_k)=0$

令 $T=\underset{i=1 } {\overset{n}\cup}T_i$ ,则有 $\underset{n\rightarrow \infty} {lim}P(T)\le \sum_{i=1}^n\underset{n\rightarrow \infty} {lim}P(T_k)=0$

定义事件 $A:\underset{\theta \in \Lambda }{sup}\big(R(\theta)-R_{emp}(X_n,\theta)\big)>\varepsilon$ 发生了，
则必然存在某个 $\hat\Lambda_k$ , $\theta^*\in \hat\Lambda_k$ 使得： ${sup}R(\theta^*)-{inf}R_{exp}(X_n,\theta^*)>\varepsilon$ .
因为：
            ${sup}R(\theta^*)<\underset{\theta \in \Lambda(a_{k+1})}{inf} R(\theta)<\underset{\theta \in \Lambda(a_{k})}{inf} R(\theta)+\frac{\varepsilon}{2}$
            ${inf}R_{exp}(X_n,\theta^*)=\underset{\theta \in \Lambda(a_k) }{inf}R_{exp}(X_n,\theta)$
因此有
            $\underset{\theta \in \Lambda(a_{k})}{inf} R(\theta)+\frac{\varepsilon}{2}>\underset{\theta \in \Lambda(a_k) }{inf}R_{exp}(X_n,\theta)+\varepsilon$
这意味着事件 $T$ 发生了，即A事件发生蕴含T事件发生。因此有:
            $\underset{n\rightarrow \infty} {lim}P(A) \le \underset{n\rightarrow \infty} {lim}P(T)=0$
即：
            $\underset{n \rightarrow \infty}{lim}P\biggl(\underset{\theta \in \Lambda }{sup}\big(R(\theta)- R_{exp}(X_n,\theta)\big)>\varepsilon\biggl)=0 ;\forall \varepsilon>0$

接着证明：” $\Leftarrow$ :”

           若 $\underset{n \rightarrow \infty}{lim}P\biggl(\underset{\theta \in \Lambda }{sup}\big(R(\theta)- R_{exp}(X_n,\theta)\big)>\varepsilon\biggl)=0 ;\forall \varepsilon>0$ 成立：
则对于任意的 $\theta \in \hat\Lambda_k,i=1..n$ 都有：
            $\underset{n \rightarrow \infty}{lim}P\biggl(\underset{\theta \in\hat \Lambda_k }{sup}\big(R(\theta)- R_{exp}(X_n,\theta)\big)>\varepsilon\biggl)=0 ;\forall \varepsilon>0$
得到：
            $\underset{n \rightarrow \infty}{lim}P\biggl(\underset{\theta \in\hat \Lambda_k }{sup}R\theta)- \underset{\theta \in\hat \Lambda_k }{inf}R_{exp}(X_n,\theta)>\varepsilon\biggl)=0 ;\forall \varepsilon>0$
应用前面提到的 $(2)$ 式得到：
            $\underset{n \rightarrow \infty}{lim}P\biggl(\underset{\theta \in\Lambda(a_k) }{inf}R\theta)- \underset{\theta \in \Lambda(a_k) }{inf}R_{exp}(X_n,\theta)>\frac{\varepsilon}{2}\biggl)=0 ;\forall \varepsilon>0 \qquad (3)$
至此，完成了单边一致的证明。

下面证明严格一致性也成立：
假定时间发生了事件A2: $\underset{\theta \in \Lambda(a_k) }{inf}R_{exp}(X_n,\theta)-\underset{\theta \in\Lambda(a_k) }{inf}R(\theta)>\varepsilon$

则必有:
            $\underset{\theta \in \Lambda(a_k) }{inf}R_{exp}(X_n,\theta)>\underset{\theta \in\Lambda(a_k) }{inf}R(\theta)+\varepsilon=R(\theta^*) +\frac{\varepsilon}{2},\theta^* \in \hat\Lambda(a_k)$

得到:
            $R_{exp}(X_n,\theta^*)>R(\theta^*)+\frac{\varepsilon}{2}，\theta^* \in \hat\Lambda(a_k)$
根据大数定理，必然有：
            $R_{exp}(X_n,\theta^*)\overset{p}\rightarrow R(\theta^*)$ ，
所以下式成立：
            $\underset{n \rightarrow \infty}{lim}P\biggl(\underset{\theta \in \Lambda(a_k) }{inf}R_{exp}(X_n,\theta)-\underset{\theta \in\Lambda(a_k) }{inf}R(\theta)>\varepsilon\biggl)=0 ;\forall \varepsilon>0 \qquad (4)$
根据 $(3)(4)$ 两式，有：
            $\underset{n \rightarrow \infty}{lim}P\biggl(\bigl|\underset{\theta \in\Lambda(a_k) }{inf}R\theta)- \underset{\theta \in \Lambda(a_k) }{inf}R_{exp}(X_n,\theta)\bigl|>\frac{\varepsilon}{2}\biggl)=0 ;\forall \varepsilon>0$
即：
            $\underset{\theta \in \Lambda }{inf}R_{exp}(X_n,\theta) \overset{p}\rightarrow \underset{\theta \in\Lambda}{inf}R\theta)$

证明完毕。

在此，我们看到了ERP原则一致性，等价于单边一致收敛：

P (s u p θ \in Λ (R (θ) - R e x p (X n, θ)) \geq ε) \to n \to \infty 0 (5)

$P\bigg(\underset{\theta \in \Lambda}{sup}\big(R(\theta) -R_{exp}(X_n,\theta) \big)\ge \varepsilon\bigg) \underset{n\rightarrow \infty} \rightarrow 0 \qquad (5)$

但是，到此还没有讨论到单边一致收敛对损失函数有何要求。关键定理是整个统计学习理论的重要一步，它将问题进行了转化。

后面从双边一致性开始讨论，双边一致形式如下：

P (s u p θ \in Λ ∣ R (θ) - R e x p (X n, θ) ∣ \geq ε) \to n \to \infty 0 (6)

$P\big(\underset{\theta \in \Lambda}{sup}\mid R(\theta) -R_{exp}(X_n,\theta) \mid\ge \varepsilon\big) \underset{n\rightarrow \infty} \rightarrow 0 \qquad (6)$
概率

P $P$ 是函数集

{L(x;θ)|θ∈Λ} $\{L(x;\theta)|\theta \in \Lambda\}$ 上的泛函，所以这是泛函上的大数定理，问题是：什么时候成立？
Vapnik大师由简单到复杂，一步一步证明，其中知识贯通了概率论，测度论，展示了精湛的分析功力，顶礼膜拜一下这位大师。
这位大师将损失函数集