outline
- 统计学习的定义
- 监督学习
- 统计学习方法的三要素
- 模型
- 决策模型
- 条件概率模型
- 策略
- 损失函数
- 风险函数
- 经验风险最小化
- 结果风险最小化
- 算法
- 过拟合和泛化
- 正则化
- 交叉验证
- 简单
- S折
- 留一
- 模型
- 监督学习应用
- 分类
- 标注
- 回归
- math
统计学习
定义
- 计算机基于数据构建统计模型并运用模型对数据进行预测和分析
特点
- 以计算机,网络为平台
- 数据驱动
- 以方法为中心
学习(赫尔伯特 西蒙 Herbert A,Simon)
- 如果一个系统能够通过执行某个过程改进它的性能
对象
- 数据
统计学习的前提
- 统计学习关于数据的基本假设是同类数据集有一定的统计规律性
统计学习的方法
- 监督学习 supervised learning
- 非监督学习 unsupervised learning
- 半监督学习 semi-supervised learning
- 强化学习 reinforcement learning
统计学习的方法
- 从给定的,有限的,用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的,并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space),应用某个评价准则(evaluation criterion) ,从假设空间中选取一个最优的模型,使它对已知训练数据和未知的测试数据在给定的评价准则下有最优的预测;最优的模型的选取由算法实现。
- 三要素
- 模型的假设空间 ,model
- 模型选择的准则 ,strategy
- 模型学习的算法 ,algorithm
监督学习
输入空间(input space)
- 输入的所有可能取值的集合
输出空间(output space)
-
输出的所有可能取值的集合
-
输出空间一般小于输入空间
特征空间
- 每个具体的输入时一个实例,通常由特征向量(feature vector)表示,所有特征向量存在的空间成为特征空间(feature space)
- 模型实际定义在特征空间上
联合概率分布
- 监督学习假设输入和输出的随机变量X和Y遵循联合概率分布P(X,Y)
- P(X,Y)表示分布函数或分布密度函数
- 假定联合概率分布存在,但具体定义未知
- 是监督学习的基本假设
- P(x,y)= P(y|x)p(x)= p(x|y)p(y)
假设空间
- 监督学习的目的是学习一个由输入到输出的映射
- 模型可以是概率模型或非概率模型
- 条件概率分布P(Y|X)
- 决策函数 (decision function) Y=f(X)
统计学习方法三要素
模型
假设空间用F表示 ,表示决策函数的集合或条件概率的集合,一般有无穷多个。
假设空间可以定义为决策函数的集合 F= {f | Y=f(X)},
其中X,Y是定义在,空间和输出空间上的变量,这时F通常由一个参数向量决定的函数族
F={f | Y=
f
θ
f_{\theta}
fθ(X) ,
θ
∈
R
n
\theta \in R^n
θ∈Rn}
,参数向量
θ
\theta
θ取值与n维欧式空间
R
n
R^n
Rn,称为参数空间
策略
如何评价模型
- 损失函数:度量一次预测的好坏
- 风险函数:度量平均意义下模型的好坏
损失函数(loss) ,代价函数(cost)
- 常见的损失函数 0-1,平方、绝对值、对数\对数似然
- 对数似然 L(Y,P(Y|X)) = -logP(Y|X)
损失函数的期望\风险函数
R
e
m
p
=
E
p
[
L
(
Y
,
f
(
x
)
)
]
=
∫
x
∗
y
L
(
y
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{emp} = E_p[L(Y,f(x))] = \int_{x*y} L(y(y,f(x))P(x,y)dxdy
Remp=Ep[L(Y,f(x))]=∫x∗yL(y(y,f(x))P(x,y)dxdy
这是理论模型f(X)关于联合分布(X,Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。如果联合分布未知,则不能计算。
经验风险(empirical risk)或经验损失
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)= {1\over{N}} \sum^{N}_{i=1}L(y_i,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))
经验风险是关于训练样本集平均损失函数,根据大数定律,当样本N趋近无穷时,经验风险趋近与期望风险。
但样本数量有限,经验损失不能较好趋近与风险函数,需要使用策略进行校正。
策略
风险经验最小化 和结构风险最小化
风险经验最小化(ERM ,empirical risk minimization) 认为,经验风险最小的模型就是最优的模型,根据这一策略,即求解最优化问题:
m
i
n
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
{min\over{f \in F }} {1\over{N}} \sum^{N}_{i=1}L(y_i,f(x_i))
f∈FminN1i=1∑NL(yi,f(xi))
当样本足够大时,能保证有较好的效果,如极大似然估计 (模型是条件分布,损失函数是对数损失函数,经验风险最小化等价于极大似然估计)。样本小时,会出现过拟合的情况。
结构风险最小化(structural risk minimization ,SRM) 是为了防止过拟合提出的,等价于正则化(regularization)
R
s
r
m
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}={1\over{N}} \sum^N_{i=1} L(y_i ,f(x_i))+ \lambda J(f)
Rsrm=N1i=1∑NL(yi,f(xi))+λJ(f)
J(f)是模型复杂度,是定义在假设空间的泛函 。如贝叶斯估计中最大后验概率(MAP)模型是条件分布,损失函数是对数损失函数,结果风险最小化等价于最大后验概率)。
算法
算法求解最优化模型,此时统计学学习模型归结为最优化分析
模型评估和模型选择
训练误差和测试误差 (training error ,test error)
假设学到的模型时Y=f(x) ,训练误差是模型关于训练数据的平均损失
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f) = {1\over N} \sum^N_{i=1} L(y_i,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))
,N是训练样本数
测试误差是当N是测试样本容量时。
学习方法对位置数据的预测能力称为泛化能力
模型要避免过拟合并提高预测能力
模型选择方法:正则化和交叉验证
正则化
正则化项是模型复杂度的单调递增函数,正则化一般形式:
R
s
r
m
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}={1\over{N}} \sum^N_{i=1} L(y_i ,f(x_i))+ \lambda J(f)
Rsrm=N1i=1∑NL(yi,f(xi))+λJ(f)
正则化符合奥卡姆剃刀(Occam’s razor)原理:在所有可能的模型中,能很好解释已知数据并且十分简单才是好模型。从贝叶斯估计的角度看,正则化项对应模型的先验概率。
交叉验证
- 简单交叉验证 。将数据分为训练,测试,在不同参数条件下训练,选出测试误差最小的
- S折交叉验证 (S-fold cross validation) 随机将数据切割成S个互不相交的大小相同的子集,利用S-1个进行训练,剩下的测试。可有S中选择,最后选择测试误差最小的
- 留一交叉验证 。是S折交叉验证的特殊情况,S=N(样本数量),往往在数据缺乏的条件下使用
泛化能力
泛化误差(generalization error) 如果学到的模型时f,那么用这个模型对未知数据预测的误差为泛化误差。实际上,泛化误差就是模型的期望误差。
泛化误差上界
泛化能力是通过分许泛化误差的概率上界进行的。
性质
- 是样本容量的函数,样本增多是,泛化上界趋于0
- 是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界就越大
生成模型和判别模型
监督学习方法分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型成为生成模型和判别模型。
-
生成方法时由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型:
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X) = {{P(X,Y)}\over {P(X)}} P(Y∣X)=P(X)P(X,Y)
可以还原联合概率分布,收敛速度快,存在隐形变量时,仍能使用。 -
判别方法由数据直接学习决策函数 f ( X ) f(X) f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测模型,判别模型时关心给定的X,一个预测什么样的输出
应用
- 分类
对于二分类,常用评价指标是 精确度 (precision) 和召回率 (recall).
精确率是
P = T P T P + F P P={TP\over {TP+FP}} P=TP+FPTP
召回率
R = T P T P + F N R={TP\over{TP+FN}} R=TP+FNTP
其中,
TP是将正类预测为正类
FN 是将正类预测为负类
FP是将负类预测为正类
TN是将负类预测为负类
T\F 对错,P\N 正负 - 标注问题(tagging)
输入时一个观测序列,输出是一个标记序列或状态序列 - 回归问题(regression)
math
- 联合分布
设(X,Y)是二维随机变量,对于任意实数x,y,二元函数:
F ( x , y ) = P ( X ≤ x ) ⋂ ( Y ≤ y ) F(x,y) =P{ (X\leq x) \bigcap (Y\leq y) } F(x,y)=P(X≤x)⋂(Y≤y),
记成P{X ≤ \leq ≤x, Y ≤ \leq ≤y}
称为二维随机变量(X,Y)的分布函数,或随机变量X,Y的联合分布
性质
- F(x,y)是变量x,y的不减函数,对于任意固定的y, x 1 x_1 x1> x 2 x_2 x2,F( x 1 x_1 x1 ,y)>F( x 2 x_2 x2,y)
- 0
≤
\leq
≤F(x,y)
≤
\leq
≤ 1
- 对于固定的y, F(- ∞ \infin ∞ ,y) =0 ,x同理
- F(- ∞ \infin ∞ ,- ∞ \infin ∞) =0
- F( ∞ \infin ∞ , ∞ \infin ∞) =1
- F(x+0 ,y)=F(x,y) ,F(x,y+0)=F(x,y) ;F(x,y)关于x,y都右连续
- 对于任意的(
x
1
x_1
x1 ,
y
1
y_1
y1) ,(
x
2
x_2
x2 ,
y
2
y_2
y2) ,
x
1
x_1
x1<
x
2
x_2
x2,
y
1
y_1
y1<
y
2
y_2
y2,不等式成立:F(
x
2
x_2
x2 ,
y
2
y_2
y2) -F(
x
1
x_1
x1,
y
2
y_2
y2)-F(
x
2
x_2
x2,
x
1
x_1
x1)+F(
x
1
x_1
x1,
y
1
y_1
y1)
≥
\geq
≥ 0
相当于二维平面下,X=x,Y=y围成的左下方的面积
- 极大似然估计
若总体X属于离散型,其分布律 P ( X = x ) = p ( x ; θ ) , θ ∈ Θ P(X=x)=p(x;\theta),\theta \in \Theta P(X=x)=p(x;θ),θ∈Θ的形式为已知, θ \theta θ为待估计参数, Θ \Theta Θ是可能取值的范围,设 X 1 , X 2 , . . . , X n X_1 ,X_2,...,X_n X1,X2,...,Xn是来自X的样本,则 X 1 , X 2 , . . . , X n X_1 ,X_2,...,X_n X1,X2,...,Xn的联合分布律为:
∏ i = 1 n p ( x i ; θ ) \prod^n_{i=1}p(x_i;\theta) i=1∏np(xi;θ)
设 x 1 , x 2 , . . . , x n x_1,x_2,... , x_n x1,x2,...,xn 为对于样本 X 1 , X 2 , . . . , X n X_1 ,X_2,...,X_n X1,X2,...,Xn的一个样本值。易知样本 X 1 , X 2 , . . . , X n X_1 ,X_2,...,X_n X1,X2,...,Xn取到观察值 x 1 , x 2 , . . . , x n x_1,x_2,... , x_n x1,x2,...,xn的概率,即事件{ X 1 = x 1 , X 2 = x 2 , . . . , X n = x n X_1=x_1 ,X_2=x_2,...,X_n=x_n X1=x1,X2=x2,...,Xn=xn}发生的概率为:
L ( θ ) = L ( x 1 , x 2 , . . . , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) , θ ∈ Θ L(\theta)=L(x_1,x_2,...,x_n;\theta) =\prod^n_{i=1}p(x_i;\theta) ,\theta \in \Theta L(θ)=L(x1,x2,...,xn;θ)=i=1∏np(xi;θ),θ∈Θ
这一概率随 θ \theta θ的取值而变化,是 θ \theta θ的函数, L ( θ ) L(\theta) L(θ)称为样本的似然函数。X是连续性同理。
若 L ( x 1 , x 2 , . . . , x n ; θ ^ ) = m a x θ ∈ Θ L ( x 1 , x 2 , . . . , x n ; θ ) L(x_1,x_2,...,x_n;\hat\theta)= max_{\theta \in \Theta} L(x_1 ,x_2 ,...,x_n;\theta) L(x1,x2,...,xn;θ^)=maxθ∈ΘL(x1,x2,...,xn;θ)
则称 θ ^ \hat\theta θ^为 θ \theta θ的最大似然估计值。只需求最值即可,通常先取对数后求导数。 - 贝叶斯公式,后验概率
-
贝叶斯公式
设试验E的样本空间为S,A为E的事件, B 1 B_1 B1 , B 2 B_2 B2为S的一个划分,且 P ( A ) > 0 , P ( B i ) > 0 P(A)>0 ,P(B_i)>0 P(A)>0,P(Bi)>0,则
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) , i = 0 , 1 , 2 , . . . , n P(B_i|A) = {{P(A|B_i)P(B_i)}\over{\sum\limits^n_{j=1}P(A|B_j)P(B_j)}} ,i= 0,1,2,...,n P(Bi∣A)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi),i=0,1,2,...,n
是贝叶斯公式。可由条件概率和全概率公式导出
P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) P(B_i|A)={{P(B_iA)}\over{P(A)}}= {{P(A|B_i)P(B_i)}\over{\sum\limits^n_{j=1}P(A|B_j)P(B_j)}} P(Bi∣A)=P(A)P(BiA)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi) -
先验概率
由以往数据分析得到,(已统计的数据,事件的频率) -
后验概率
得到新手,再次对
P(B|A)是已知A发生后B的条件概率,称作B的后验概率
- 大数定理
大数定理描述随机变量序列的前一些项的算术平均值在某种条件下收敛到这些项的均值的算数平均值。(概率的稳定性)
- 辛钦大数定理
设 X 1 X_1 X1, X 2 X_2 X2 是相互独立,服从统一分布的随机变量序列,且有数学期望 E ( X k ) = μ ( k = 1 , 2 , . . . ) E(X_k)=\mu (k=1,2,...) E(Xk)=μ(k=1,2,...) ,作前n个变量的算数平均 1 n ∑ k = 1 n X k {1\over n}\sum\limits^n_{k=1} X_k n1k=1∑nXk,则对于任意 ϵ > 0 \epsilon >0 ϵ>0,有
lim n → ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ϵ } = 1 \lim_{n\to \infty} P \lbrace | {1\over n} \sum^n_{k=1}X_k-\mu |<\epsilon \rbrace =1 n→∞limP{∣n1k=1∑nXk−μ∣<ϵ}=1
对于独立同分布且具有均值 μ \mu μ的随机变量 X 1 X_1 X1 ,…, X n X_n Xn,当n很大时他们的算术平均值 1 n ∑ k = 1 n X k {1\over n}\sum\limits^n_{k=1} X_k n1k=1∑nXk很可能接近 μ \mu μ
即 X ‾ = 1 n ∑ k = 1 n X k {\overline X}={1\over n}\sum\limits^n_{k=1} X_k X=n1k=1∑nXk 依概率收敛于 μ \mu μ , X ‾ → P μ {\overline X} { {\rightarrow}}^P \mu X→Pμ - 伯努利大数定理
辛钦大数定理的推论。
设 f A f_A fA是n次独立重复事件A发生的次数,p是事件A在每次实验中发生的概率,则对于任意正数 ϵ > 0 \epsilon >0 ϵ>0,有
lim n → ∞ P { ∣ f A n − μ ∣ < ϵ } = 1 \lim_{n\to \infty} P \lbrace | {f_A\over n} -\mu |<\epsilon \rbrace =1 n→∞limP{∣nfA−μ∣<ϵ}=1
lim n → ∞ P { ∣ f A n − μ ∣ ≥ ϵ } = 0 \lim_{n\to \infty} P \lbrace | {f_A\over n} -\mu | \geq\epsilon \rbrace =0 n→∞limP{∣nfA−μ∣≥ϵ}=0
该定理表明,对于任意 ϵ > 0 \epsilon>0 ϵ>0 ,只要独立试验次数n充分大,事件 { ∣ f A n − μ ∣ ≥ ϵ } \lbrace | {f_A\over n} -\mu | \geq\epsilon \rbrace {∣nfA−μ∣≥ϵ} 是个小概率事件,几乎不发生,而 { ∣ f A n − μ ∣ < ϵ } \lbrace | {f_A\over n} -\mu |<\epsilon \rbrace {∣nfA−μ∣<ϵ} 必然发生,这就是频率稳定性的真正含义,在实际中,当实验次数很大时,便可以用事件的频率来代替事件的概率。