1.1、统计学习
1.主要特点:
- 统计学习以数据为研究对象,是数据驱动的科学
- 统计学习以方法为中心,构建模型并应用模型进行预测和分析
- 目的是对数据进行预测与分析
2.统计学习的方法
统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习 (semi-supervised learning)和强化学习(reinfreinforcement learning)等组成
实现统计学习方法的步骤如下:
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的标准,即学习策略
- 实现求解最有模型的算法,即学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对数据进行预测或分析
1.2、监督学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
监督学习假设设输入与输出的随机变量
X
和
Y
遵
循
联
合
概
率
分
布
P
(
X
,
Y
)
X和Y遵循联合概率分布P(X,Y)
X和Y遵循联合概率分布P(X,Y)。
假设空间
监督学习目的是在于学习一个由输入到输出的映射,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。
1.3、统计学习三要素
方 法 = 模 型 + 策 略 + 算 法 方法=模型+策略+算法 方法=模型+策略+算法
1.模型
在监督学习中,模型就是索要学习的条件概率分布或决策函数。
2.策略
统计学习目标在于从假设空间中选取最优模型。
常用的损失函数
- 0-1损失函数
若 Y = f ( x ) , 则 L ( Y , f ( X ) ) = 1 , 否 则 L ( Y , f ( X ) ) = 0 若Y=f(x),则L(Y,f(X))=1,否则L(Y,f(X))=0 若Y=f(x),则L(Y,f(X))=1,否则L(Y,f(X))=0- 平方损失函数
L ( Y , f ( X ) ) = ( Y − f ( x ) ) 2 L(Y,f(X))=(Y-f(x))^2 L(Y,f(X))=(Y−f(x))2- 绝对损失函数
L ( Y , f ( X ) ) = ∣ Y − f ( x ) ∣ L(Y,f(X))=|Y-f(x)| L(Y,f(X))=∣Y−f(x)∣- 对数损失函数
L ( Y , f ( X ) ) = − l o g P ( Y ∣ X ) L(Y,f(X))=-logP(Y|X) L(Y,f(X))=−logP(Y∣X)
损失函数值越小,模型就越好,由于模型的输入、输出 ( X , Y ) (X,Y) (X,Y)是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),所以损失函数的期望,也成为风险函数或期望损失。记为 R e x p ( f ) R_{exp}(f) Rexp(f)
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ χ × γ L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y,f(X))]=\int_{\chi\times\gamma}L(y,f(x))P(x,y)dxdy Rexp(f)=Ep[L(Y,f(X))]=∫χ×γL(y,f(x))P(x,y)dxdy
χ \chi χ——输入空间
γ \gamma γ——输出空间
模型
f
(
X
)
f(X)
f(X)关于训练集的平均损失称为经验风险或经验损失,记为
R
e
m
p
(
f
)
R_{emp}(f)
Remp(f):
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))
根据大数定律,当样本容量N趋于无穷的时,经验风险 R e x p 和 R e m p R_{exp}和R_{emp} Rexp和Remp无限接近。所以很自然的想法就是用经验风险估计期望风险。但是,由于现实中训练数目有限,估计并不理想,要对风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化(极大似然估计等但是样本容量较小时易出现最小化)和结构风险最小化(正则化在损失函数后加上模型的复杂度)
1.4、泛化能力
泛化能力:指由该方法学习到的模型对未知数据的预测能力
泛化误差:指学习到的模型对未知数据预测的误差
泛化误差上界
学习方法的泛化能力分析往往是通过研究泛化误差的概率上届进行,简称为泛化误差。
R
e
x
p
(
f
^
)
=
E
P
[
L
(
Y
,
f
^
(
X
)
)
]
=
∫
χ
×
γ
L
(
y
,
f
^
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{exp}(\hat f)=E_P[L(Y,\hat f(X))]=\int_{\chi\times\gamma}L(y,\hat f(x))P(x,y)dxdy
Rexp(f^)=EP[L(Y,f^(X))]=∫χ×γL(y,f^(x))P(x,y)dxdy
具体上来说时通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。具有以下的性质:
- 它是样本容量的函数,当样本容量增加时,泛化上界趋于0
- 它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大
定理:对而分类问题,当假设空间时有限个函数的集合
F
=
{
f
1
,
f
2
,
.
.
.
,
f
d
}
时
,
对
任
意
一
个
函
数
f
∈
F
,
至
少
以
概
率
1
−
σ
F=\{f_1,f_2,...,f_d\}时,对任意一个函数f\in F,至少以概率1-\sigma
F={f1,f2,...,fd}时,对任意一个函数f∈F,至少以概率1−σ,以下不等式成立:
R
(
f
)
≤
R
^
(
f
)
+
ε
(
d
,
N
,
σ
)
R(f)\leq\hat R(f)+\varepsilon(d,N,\sigma)
R(f)≤R^(f)+ε(d,N,σ)
其中,
ε
(
d
,
N
,
σ
)
=
1
2
N
(
l
o
g
d
+
l
o
g
1
σ
)
\varepsilon(d,N,\sigma)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\sigma})}
ε(d,N,σ)=2N1(logd+logσ1)
不等式
R
(
f
)
时
泛
化
误
差
,
右
端
即
为
泛
化
误
差
上
界
。
泛
化
误
差
上
界
中
,
R
^
(
f
)
为
训
练
误
差
;
ε
(
d
,
N
,
σ
)
是
N
的
单
调
递
减
函
数
R(f)时泛化误差,右端即为泛化误差上界。泛化误差上界中,\hat R(f)为训练误差;\varepsilon(d,N,\sigma)是N的单调递减函数
R(f)时泛化误差,右端即为泛化误差上界。泛化误差上界中,R^(f)为训练误差;ε(d,N,σ)是N的单调递减函数