四、统计学习理论：有界实损失函数上的大数定理

最新推荐文章于 2024-02-10 23:25:19 发布

drawsky

最新推荐文章于 2024-02-10 23:25:19 发布

阅读量469

点赞数

分类专栏： spark快速大数据分析机器学习文章标签：统计学机器学习

本文链接：https://blog.csdn.net/drawsky/article/details/78699155

版权

机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

spark快速大数据分析

5 篇文章 0 订阅

订阅专栏

前一篇文章，介绍了指示损失函数下的机器学习ERP原则一致性的充分条件，从有限指示损失函数集推广到了无限的指示损失函数集。
本文将介绍有界实损失函数集上的一致收敛的条件。
为了区别将前文中的损失函数集记为: $\{Q(x;\theta)|\theta \in \Lambda\}$ 。
假设样本是m维的随机变量，记：
$R(\theta)=\int_{R^m} Q(x,\theta)dF(x)$

$R_{exp}(X,\theta)=\frac{1}{n}\sum_{i=1}^nQ(x_i,\theta)$ $X$ 代表任意一个样本集，有 $n$ 个样本。

目标是分析：

P (s u p θ \in Λ ∣ R (θ) - R e x p (X, θ) ∣ \geq ε) \to n \to \infty 0 (1)

$P\big(\underset{\theta \in \Lambda}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid\ge \varepsilon\big) \overset{n\rightarrow \infty} \rightarrow 0 \qquad (1)$ 成立的条件。

有界实损失函数上的大数定理
先讨论实损失函数 $|Q(x,\theta)|<\phi(x)<\infty$ 是有界实函数。
假定： $a\le Q(x,\theta)\le b$ 从新表述一下 $\int_{R^m} Q(x,\theta)dF(x)$ :

事实上，可以假设 $a= 0$ ,如果 $\forall a\neq 0$ ,只需变换一下损失函数： $Q^*(x,\theta)=Q(x,\theta)-a$ 都有:

$∣ ∣ ∣ \int R m Q * (x, θ) d F (x) - 1 n \sum k = 1 n Q * (x k, θ) ∣ ∣ ∣ = ∣ ∣ ∣ \int R m Q (x, θ) d F (x) - 1 n \sum k = 1 n Q (x k, θ) ∣ ∣ ∣ = s u p θ \in Λ ∣ R (θ) - R e x p (X, θ) ∣$ $\bigg|\int_{R^m} Q^*(x,\theta)dF(x)-\frac{1}{n}\sum_{k=1}^nQ^*(x_k,\theta)\bigg|=\bigg|\int _{R^m}Q(x,\theta)dF(x)-\frac{1}{n}\sum_{k=1}^nQ(x_k,\theta)\bigg|\\ =\underset{\theta \in \Lambda}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid$
因此要求 $a= 0$ 并不是必须的。 为了方便描述，下文中假定 $a=0，B=b-a=b$ ,

从Lebesgue积分角度来看 $R(\theta)$ 和 $R_{exp}(X,\theta)$

\int R m Q (x, θ) d F (x) = l i m l \to \infty B l \sum i = 0 l - 1 P {Q (x, θ) > i B l}

$\int_{R^m} Q(x,\theta)dF(x)=\underset{l \rightarrow \infty}{lim}\frac{B}{l}\sum_{i=0}^{l-1}P\{Q(x,\theta)>i\frac{B}{l}\}$
对于

Rexp(X,θ) R e x p ( X , θ ) $R_{exp}(X,\theta)$ ，同样我们有：

1 n \sum k = 1 n Q (x k, θ) = l i m l \to \infty B l \sum i = 0 l - 1 v {x k : Q (x k, θ) > i B l}

$\frac{1}{n}\sum_{k=1}^nQ(x_k,\theta)=\underset{l \rightarrow \infty}{lim}\frac{B}{l}\sum_{i=0}^{l-1}v\{x_k:Q(x_k,\theta)>i\frac{B}{l}\}$

因此有：

∣ ∣ ∣ \int R m Q (x, θ) d F (x) - 1 n \sum n k = 1 Q (x k, θ) ∣ ∣ ∣ = l i m l \to \infty B l ∣ ∣ ∣ \sum l - 1 i = 0 (P {Q (x, θ) > i B l} - v {x k : Q (x k, θ) > i B l}) ∣ ∣ ∣ \leq l i m l \to \infty B l \sum l - 1 i = 0 (∣ ∣ ∣ P {Q (x, θ) > i B l} - v {x k : Q (x k, θ) > i B l} ∣ ∣ ∣) \leq l i m l \to \infty B l \sum l - 1 i = 0 s u p β \in (a, b) (∣ ∣ ∣ P {Q (x, θ) > β} - v {x k : Q (x k, θ) > β} ∣ ∣ ∣) = B s u p β \in (a, b) (∣ ∣ ∣ P {Q (x, θ) > β} - v {x k : Q (x k, θ) > β} ∣ ∣ ∣) = B s u p β \in (a, b) (∣ ∣ ∣ \int R m 1 {Q (x, θ) - β} d F (x) - 1 n \sum n k = 1 1 {Q (x k, θ) - β} ∣ ∣ ∣)

$\begin{array}{1} \bigg|\int_{R^m} Q(x,\theta)dF(x)-\frac{1}{n}\sum_{k=1}^nQ(x_k,\theta)\bigg|\\ \quad=\underset{l \rightarrow \infty}{lim}\frac{B}{l}\bigg|\sum_{i=0}^{l-1}\bigg(P\{Q(x,\theta)>\frac{iB}{l}\}-v\{x_k:Q(x_k,\theta)>\frac{iB}{l}\}\bigg)\bigg|\\ \quad\le\underset{l \rightarrow \infty}{lim}\frac{B}{l}\sum_{i=0}^{l-1}\bigg(\bigg|P\{Q(x,\theta)>\frac{iB}{l}\}-v\{x_k:Q(x_k,\theta)>\frac{iB}{l}\}\bigg|\bigg)\\ \quad\le\underset{l \rightarrow \infty}{lim}\frac{B}{l}\sum_{i=0}^{l-1}\underset{\beta \in (a,b)}{sup}\bigg(\bigg|P\{Q(x,\theta)>\beta\}-v\{x_k:Q(x_k,\theta)>\beta\}\bigg|\bigg)\\ \quad =B\underset{\beta \in (a,b)}{sup}\bigg(\bigg|P\{Q(x,\theta)>\beta\}-v\{x_k:Q(x_k,\theta)>\beta\}\bigg|\bigg)\\ \quad =B\underset{\beta \in (a,b)}{sup}\bigg(\bigg|\int _{R^m}1\{Q(x,\theta)-\beta\}dF(x)-\frac{1}{n}\sum_{k=1}^{n}1\{Q(x_k,\theta)-\beta\}\bigg|\bigg) \end{array}$
由此我们得到：

s u p θ \in Λ ∣ ∣ ∣ \int R m Q (x, θ) d F (x) - 1 n \sum n k = 1 Q (x k, θ) ∣ ∣ ∣ \leq B s u p θ \in Λ; β \in (a, b) (∣ ∣ ∣ \int R m 1 {Q (x, θ) - β} d F (x) - 1 n \sum n k = 1 1 {Q (x k, θ) - β} ∣ ∣ ∣)

$\begin{array}{1} \underset{\theta\in \Lambda}{sup}\bigg|\int_{R^m} Q(x,\theta)dF(x)-\frac{1}{n}\sum_{k=1}^nQ(x_k,\theta)\bigg|\\ \quad \le B\underset{\theta\in \Lambda;\beta \in (a,b)}{sup}\bigg(\bigg|\int_{R^m} 1\{Q(x,\theta)-\beta\}dF(x)-\frac{1}{n}\sum_{k=1}^{n}1\{Q(x_k,\theta)-\beta\}\bigg|\bigg) \end{array}$
将有界实函数转化到指示损失函数

I(x,θ,β)=1{Q(x,θ)−β} I ( x , θ , β ) = 1 { Q ( x , θ ) − β } $I(x,\theta,\beta)=1\{Q(x,\theta)-\beta\}$ 上,不过增加了一个参数

β β $\beta$ ,根据指示损失函数上的结论，得到下面的不等式：

P (s u p θ \in Λ ∣ ∣ ∣ \int R m Q (x, θ) d F (x) - 1 n \sum n k = 1 Q (x k, θ) ∣ ∣ ∣ > ε) \leq P (s u p θ \in Λ; β \in (a, b) ∣ ∣ ∣ \int R m 1 {Q (x, θ) - β} d F (x) - 1 n \sum n k = 1 1 {Q (x k, θ) - β} ∣ ∣ ∣ > ε B) = P (s u p θ \in Λ; β \in (a, b) ∣ ∣ ∣ \int R m I (x, θ, β) d F (x) - 1 n \sum n k = 1 I (x i, θ, β) ∣ ∣ ∣ > ε B) \leq 2 N Λ, β (n) e - ε 2 2 B 2 n = 2 e x p ((H Λ , β v c ( n ) n - ε 2 2 B 2) n)

$\begin{array}{1} P\big(\underset{\theta\in \Lambda}{sup}\bigg|\int_{R^m} Q(x,\theta)dF(x)-\frac{1}{n}\sum_{k=1}^nQ(x_k,\theta)\bigg|>\varepsilon\big)\\ \quad \le P\bigg(\underset{\theta\in \Lambda;\beta \in (a,b)}{sup}\bigg|\int_{R^m} 1\{Q(x,\theta)-\beta\}dF(x)-\frac{1}{n}\sum_{k=1}^{n}1\{Q(x_k,\theta)-\beta\}\bigg|>\frac{\varepsilon}{B}\bigg)\\ \quad = P\bigg(\underset{\theta\in \Lambda;\beta \in (a,b)}{sup}\bigg|\int_{R^m} I(x,\theta,\beta)dF(x)-\frac{1}{n}\sum_{k=1}^{n} I(x_i,\theta,\beta)\bigg|>\frac{\varepsilon}{B}\bigg)\\ \quad \le 2N^{\Lambda,\beta}(n)e^{-\frac{\varepsilon^2}{2B^2}n}\\ \quad =2exp\bigg(\big(\frac{H_{vc}^{\Lambda,\beta}(n)}{n}-\frac{\varepsilon^2}{2B^2}\big)n\bigg) \end{array}$
于是有下面的定理：
定理3：在实损失函数集

|Q(x,θ)|<∞ | Q ( x , θ ) | < ∞ $|Q(x,\theta)|<\infty$ 上，

∀ε>0 ∀ ε > 0 $\forall \varepsilon\gt0$ ,期望风险和经验风险满足如下不等式：

P (s u p θ \in Λ ∣ ∣ ∣ \int R m Q (x, θ) d F (x) - 1 n \sum k = 1 n Q (x k, θ) ∣ ∣ ∣ > ε) \leq 2 e x p ((H Λ , β v c ( n ) n - ε 2 2 B 2) n)

$P\big(\underset{\theta\in \Lambda}{sup}\bigg|\int_{R^m} Q(x,\theta)dF(x)-\frac{1}{n}\sum_{k=1}^nQ(x_k,\theta)\bigg|>\varepsilon\big) \quad \le2exp\bigg(\big(\frac{H_{vc}^{\Lambda,\beta}(n)}{n}-\frac{\varepsilon^2}{2B^2}\big)n\bigg)$
推论3：在实损失函数集