统计学习理论的本质 笔记 1 学习问题的表示
1.1 函数估计模型
- 产生器G从未知概率分布中随机抽取向量 x x x
- 训练器S对每个向量根据位置的条件分布返回输出值 y y y
- 学习机器LM实现一定的函数集 f ( x , α ) f(x,\alpha) f(x,α) 从中选出最逼近训练集相应的函数
1.2 风险最小化问题
联合分布函数
F
(
x
,
y
)
F(x,y)
F(x,y), 损失函数
L
(
y
,
f
(
x
,
α
)
)
L(y, f(x,\alpha))
L(y,f(x,α))
损失期望值(即风险泛函)
R
(
α
)
=
∫
L
(
y
,
f
(
x
,
α
)
)
d
F
(
x
,
y
)
R(\alpha)=\int L(y, f(x,\alpha))dF(x,y)
R(α)=∫L(y,f(x,α))dF(x,y)
学习目标即寻找
f
(
x
,
α
0
)
f(x, \alpha_0)
f(x,α0) 使之最小化风险泛函
R
(
α
)
R(\alpha)
R(α)
1.3 三种主要的学习问题
可以证明,以下三个问题的损失函数均能在估计或分类正确时最小化风险泛函
1.3.1 模式识别
训练器输出
y
y
y 只取两个值
y
=
{
0
,
1
}
y=\{0,1\}
y={0,1},
f
(
x
,
α
)
f(x,\alpha)
f(x,α)为指示函数(集合),考虑损失函数:
L
(
y
,
f
(
x
,
α
)
)
=
{
0
if
y
=
f
(
x
,
α
)
1
if
y
≠
f
(
x
,
α
)
L(y, f(x, \alpha)) = \begin{cases} 0 &\text{if } y = f(x, \alpha) \\ 1 &\text{if } y \not = f(x, \alpha) \end{cases}
L(y,f(x,α))={01if y=f(x,α)if y=f(x,α)
称学习机器输出与训练器输出不同的情况为分类错误。
1.3.2 回归估计
训练器输出
y
y
y 为实数值,
f
(
x
,
α
)
f(x,\alpha)
f(x,α) 为实函数(集合),其中包含了回归函数
f
(
x
,
α
0
)
=
∫
y
d
F
(
y
∣
x
)
f(x,\alpha_0)=\int ydF(y|x)
f(x,α0)=∫ydF(y∣x)
损失函数
L
(
y
,
f
(
x
,
α
)
)
=
(
y
−
f
(
x
,
α
)
)
2
L(y, f(x,\alpha))=(y-f(x,\alpha))^2
L(y,f(x,α))=(y−f(x,α))2
1.3.3 概率密度估计(Fisher-Wald表示)
考虑从密度函数集
p
(
x
,
α
)
p(x,\alpha)
p(x,α) 中估计密度函数的问题,考虑损失函数
L
(
p
(
x
,
α
)
)
=
−
l
n
(
p
(
x
,
α
)
)
L(p(x,\alpha))=-ln(p(x,\alpha))
L(p(x,α))=−ln(p(x,α))
即给出了独立同分布(但分布未知)的数据
{
x
i
}
\{ x_i \}
{xi} 的情况下使风险泛函最小
1.4 学习问题的一般表示
设有定义在空间Z上的概率测度 F ( z ) F(z) F(z) ,考虑函数集合 Q ( z , α ) Q(z,\alpha) Q(z,α) ,学习目标为最小化风险泛函 R ( α ) = ∫ Q ( z , α ) d F ( z ) R(\alpha)=\int Q(z,\alpha)dF(z) R(α)=∫Q(z,α)dF(z), F ( z ) F(z) F(z) 未知,但给定了独立同分布样本 { z i } \{ z_i \} {zi}。 z z z 代表了数据对 { ( x i , y i ) } \{ (x_i,y_i) \} {(xi,yi)}。 Q ( z , α ) Q(z,\alpha) Q(z,α) 为特定的损失函数。
1.5 经验风险最小化归纳原则
经验风险(empirical risk)泛函: R e m p ( α ) = 1 l ∑ i = 1 l Q ( z i , α ) R_{emp}(\alpha)=\dfrac{1}{l}\sum\limits_{i=1}^lQ(z_i,\alpha) Remp(α)=l1i=1∑lQ(zi,α)。经验风险最小化(empirical risk minimization)原则即认为使经验风险泛函 R e m p ( α ) R_{emp}(\alpha) Remp(α) 最小的 Q Q Q 可以代替使风险泛函 R ( α ) R(\alpha) R(α) 最小的 Q Q Q 。简称ERM原则。若代入回归模型损失函数,ERM原则变为最小二乘法,若代入概率密度估计损失函数,ERM原则则变为最大似然方法。
1.6 学习理论的四个部分
- 学习过程一致性的理论;
- 学习过程收敛速度非渐进理论;
- 控制学习过程推广能力的理论;
- 构造学习算法的理论。
1.7 解决学习问题的传统模式
1.7.1 密度估计问题(最大似然方法)
Fisher研究出最大似然方法,即求使对数似然函数泛函 L ( α ) = ∑ i = 1 l l n ( p ( x i , α ) ) L(\alpha)=\sum\limits_{i=1}^l ln(p(x_i,\alpha)) L(α)=i=1∑lln(p(xi,α)) 最大的 p ( x , α ) p(x,\alpha) p(x,α),一定条件下,这种方法是一致的,但有时会失效:假设X是由两个正态分布叠加而成的随机变量,其中一个分布的参数 ( μ , σ ) (\mu,\sigma) (μ,σ) 未知,则对于任何数据集 { x i } \{ x_i \} {xi},和给定任意大常数 A A A,总存在足够小的 σ \sigma σ 值使对数似然函数大于 A A A。
1.7.2 模式识别(判别分析)问题
利用最大似然技术,Fisher研究了模式识别问题。假设存在两类数据服从不同的统计规律
p
1
(
x
,
α
)
p_1(x, \alpha)
p1(x,α)、
p
2
(
x
,
β
)
p_2(x, \beta)
p2(x,β),假设第一类出现的概率为
q
q
q,第二类出现的概率为
(
1
−
q
)
(1-q)
(1−q),那么
x
x
x 属于第一类的概率为
q
∗
p
1
(
x
,
α
)
q*p_1(x, \alpha)
q∗p1(x,α),属于第二类的概率为
(
1
−
q
)
∗
p
2
(
x
,
β
)
(1-q)*p_2(x, \beta)
(1−q)∗p2(x,β),假设我们认为
x
x
x 属于第一类,那么需要
q
∗
p
1
(
x
,
α
)
≥
(
1
−
q
)
∗
p
2
(
x
,
β
)
q*p_1(x, \alpha) \ge (1-q)*p_2(x, \beta)
q∗p1(x,α)≥(1−q)∗p2(x,β)
故使用判别函数
f
(
x
)
=
s
g
n
{
l
n
(
p
1
(
x
,
α
)
)
−
l
n
(
p
2
(
x
,
β
)
)
+
l
n
(
q
)
−
l
n
(
1
−
q
)
}
f(x)=sgn\{ ln(p_1(x, \alpha)) - ln(p_2(x, \beta)) + ln(q) - ln (1-q)\}
f(x)=sgn{ln(p1(x,α))−ln(p2(x,β))+ln(q)−ln(1−q)}
为得到该判别函数,需要预先知道
p
1
(
x
,
α
)
p_1(x, \alpha)
p1(x,α) 和
p
2
(
x
,
β
)
p_2(x, \beta)
p2(x,β),在传统的体系中,采用最大似然法来估计。
1.7.3 回归模型估计
首先分析含有加性噪声的函数的模型。假设
y
i
=
f
(
x
i
,
α
0
)
+
ξ
y_i=f(x_i,\alpha_0)+\xi
yi=f(xi,α0)+ξ,
ξ
\xi
ξ 独立于
{
x
i
}
\{ x_i \}
{xi}且服从一个已知的密度函数
p
(
ξ
)
p(\xi)
p(ξ)。目标是从这个受污染的数据集
{
(
x
i
,
y
i
)
}
\{ (x_i, y_i) \}
{(xi,yi)} 中估计
f
(
x
,
α
0
)
f(x,\alpha_0)
f(x,α0) 。采用极大似然法:
L
(
a
)
=
∑
i
=
1
l
l
n
(
p
(
y
i
−
f
(
x
i
,
α
)
)
)
L(a)=\sum\limits_{i=1}^l ln(p(y_i - f(x_i, \alpha)))
L(a)=i=1∑lln(p(yi−f(xi,α)))
其中
p
(
ξ
)
p(\xi)
p(ξ) 为已知的函数,
ξ
=
y
−
f
(
x
,
α
0
)
\xi=y-f(x,\alpha_0)
ξ=y−f(x,α0)。如果
ξ
\xi
ξ 为服从零均值且固定方差为
σ
2
\sigma^2
σ2 的正态分布,则最大似然法退化为最小二乘法。
1.8 密度估计的非参数方法
1.8.1 Parzen窗
为采用Parsen窗的方法,我们需要先确定一种核函数,为简单起见,我们使用如下核函数:
K
(
x
,
x
i
,
γ
)
=
1
γ
n
K
(
x
−
x
i
γ
)
,
x
∈
R
n
K(x,x_i,\gamma) = \dfrac{1}{\gamma^n} K(\dfrac{x - x_i}{\gamma}), x \in R^n
K(x,xi,γ)=γn1K(γx−xi),x∈Rn
其中
K
(
μ
)
K(\mu)
K(μ) 是某一对称单峰密度函数。利用该核函数可以确定估计
p
(
x
)
=
1
l
∑
i
=
1
l
K
(
x
,
x
i
,
γ
)
p(x) = \dfrac{1}{l}\sum\limits_{i=1}^l K(x, x_i, \gamma)
p(x)=l1i=1∑lK(x,xi,γ)
1970s, 对Parsen类型的非参数密度估计,建立了一套完善的渐进理论,其两个重要结论为:1. 对于一个非常宽的密度类中估计密度函数,Parsen估计是一致的。2. 对于“平滑”密度函数,Parsen估计器的渐进收敛速度是最优的。其它类型的非参数估计也能得到同样的结果。观测数目足够多时,用非参数方法能很好逼近待求的密度函数,但对于有限数目的观测,其渐进特性却不再成立。
1.8.2 密度估计的问题是不适定的
密度函数是按如下定义的:
∫
−
∞
x
p
(
t
)
d
t
=
F
(
x
)
\int_{-\infty}^{x} p(t)dt = F(x)
∫−∞xp(t)dt=F(x)
密度估计问题一般形式化描述为:在给定函数集
{
p
(
t
)
}
\{ p(t) \}
{p(t)} 中寻找作为上述积分方程解的函数。但方程中概率分布函数
F
(
x
)
F(x)
F(x) 是未知的,已知的是一系列给定的独立同分布数据
{
x
i
}
\{ x_i \}
{xi}。利用这些数据,可以构造出近似分布(经验分布函数)
F
l
(
x
)
=
1
l
∑
i
=
1
l
θ
(
x
−
x
i
)
F_l(x) = \dfrac{1}{l} \sum\limits_{i=1}^l \theta(x - x_i)
Fl(x)=l1i=1∑lθ(x−xi), 显然
sup
x
∣
F
(
x
)
−
F
l
(
x
)
∣
→
l
→
∞
p
0
\sup\limits_{x} |F(x) - F_l(x)| \xrightarrow[l \rightarrow \infty]{p} 0
xsup∣F(x)−Fl(x)∣pl→∞0 为一致收敛的(理论统计学基本事实)。然而,方程
A
f
=
F
Af = F
Af=F是不适定的,即使
f
f
f 存在唯一解,
F
F
F 只需产生微小变动,也可能导致
f
f
f 的巨大变化。因此,引入正则化技术。Vapnik已经证明,已经提出的所有非参数算法都可以采用正则化技术并使用经验概率分布代替真实概率分布来得到。
1.9 有限数量信息解决问题的基本原则
在解决某一类特殊问题时,避免解决不必要的一般性问题
1.10 基于经验数据的风险最小化模型
1.10.1 模式识别
1.10.2 回归估计
R
(
α
)
=
∫
(
y
−
f
(
x
,
α
)
)
2
d
F
(
x
,
y
)
=
∫
(
f
(
x
,
α
)
−
f
(
x
,
α
0
)
)
2
d
F
(
x
)
+
∫
(
y
−
f
(
x
,
α
0
)
)
2
d
F
(
x
,
y
)
R(\alpha) =\int (y-f(x, \alpha))^2 dF(x,y)\\=\int (f(x, \alpha)-f(x, \alpha_0))^2 dF(x) + \int (y-f(x, \alpha_0))^2 dF(x,y)
R(α)=∫(y−f(x,α))2dF(x,y)=∫(f(x,α)−f(x,α0))2dF(x)+∫(y−f(x,α0))2dF(x,y)
故最小化
R
(
α
)
R(\alpha)
R(α) 相当于最小化
R
∗
(
α
)
=
∫
(
f
(
x
,
α
)
−
f
(
x
,
α
0
)
)
2
d
F
(
x
)
R^*(\alpha)=\int (f(x, \alpha)-f(x, \alpha_0))^2 dF(x)
R∗(α)=∫(f(x,α)−f(x,α0))2dF(x)
此即为
L
2
(
F
)
L_2(F)
L2(F) 度量,即函数到其回归函数之间的距离。
1.10.3 密度估计
R
(
α
)
=
−
∫
l
n
(
p
(
t
,
α
)
)
d
F
(
t
)
=
−
∫
l
n
(
p
(
t
,
α
)
)
p
0
(
t
)
d
t
R(\alpha) = -\int ln(p(t, \alpha))dF(t)=-\int ln(p(t, \alpha))p_0(t)dt
R(α)=−∫ln(p(t,α))dF(t)=−∫ln(p(t,α))p0(t)dt
设常数
c
=
∫
l
n
(
p
0
(
t
)
)
d
F
(
t
)
c = \int ln(p_0(t))dF(t)
c=∫ln(p0(t))dF(t),
R
∗
(
α
)
=
R
(
α
)
+
c
=
∫
l
n
(
p
(
t
,
α
)
p
0
(
t
)
)
p
0
(
t
)
d
t
R^*(\alpha) = R(\alpha) + c = \int ln(\dfrac{p(t, \alpha)}{p_0(t)})p_0(t)dt
R∗(α)=R(α)+c=∫ln(p0(t)p(t,α))p0(t)dt, 称公式右边的表达式为Kullback-Leibler距离,用于度量对密度的逼近与真实密度之间的距离。
1.11 随机逼近推理
1951年,Robbins 和 Monroe 提出,为利用独立同分布数据 ( z i ) ( z_i ) (zi) 最小化泛函 R ( α ) = ∫ Q ( z , α ) d F ( α ) R(\alpha) = \int Q(z, \alpha) dF(\alpha) R(α)=∫Q(z,α)dF(α), 可采用迭代过程 α ( k + 1 ) = α ( k ) − γ k g r a d α Q ( z k , α ( k ) ) \alpha(k+1) = \alpha(k) - \gamma_k grad_\alpha Q(z_k, \alpha(k)) α(k+1)=α(k)−γkgradαQ(zk,α(k)) , 迭代步数等于观测数目。可以证明该方法是一致的。但该方法每一步只用到一个元素,因而过于浪费。我们可以使用如下方法:多次使用训练数据,当数据中的元素梯度值都十分小或达到某种停止准则时停止训练。