统计学习
基于数据构建概率统计模型并运用模型对数据进行分析预测的一门学科
对象
数据
要素
1. 模型
概率模型或非概率模型
Y
=
f
(
X
)
Y=f(X)
Y=f(X)
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)
模型的假设空间包含所有可能的条件概率或决策函数,假设空间中的模型有无穷个
F
=
{
f
∣
Y
=
f
(
X
)
}
F=\{f|Y=f(X)\}
F={f∣Y=f(X)}
F
F
F通常为一个参数向量决定的函数族
F
=
{
f
∣
Y
=
f
θ
(
X
)
:
θ
∈
R
p
}
F=\{f|Y=f_{\theta}(X):\theta \in R^p \}
F={f∣Y=fθ(X):θ∈Rp}
2. 策略
按照何种准则学习或选择最优模型
1. 损失函数和风险函数
损失函数: 度量一次预测的好坏
a. 0-1损失函数
L
(
Y
,
f
(
X
)
)
=
{
1
Y
≠
f
(
X
)
0
Y
=
f
(
X
)
L(Y,f(X))=\left\{ \begin{array}{ll} 1 & Y\neq f(X) \\ 0 &Y= f(X) \end{array} \right.
L(Y,f(X))={10Y=f(X)Y=f(X)
b. 平方损失函数
L
(
Y
,
f
(
X
)
)
=
(
Y
−
f
(
X
)
)
2
L(Y,f(X))=(Y-f(X))^2
L(Y,f(X))=(Y−f(X))2
c. 绝对损失函数
L
(
Y
,
f
(
X
)
)
=
|
Y
−
f
(
X
)
|
L(Y,f(X))=|Y-f(X)|
L(Y,f(X))=|Y−f(X)|
d. 对数损失函数或对数似然损失函数
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
l
o
g
P
(
Y
∣
X
)
L(Y,P(Y|X))=-logP(Y|X)
L(Y,P(Y∣X))=−logP(Y∣X)
风险函数: 度量平均意义下模型的好坏
E
e
x
p
(
f
)
=
E
P
{
L
(
Y
,
f
(
X
)
)
}
=
∫
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
E_{exp}(f)=E_P\{L(Y,f(X))\}=\int L(y,f(x)) P(x,y)dxdy
Eexp(f)=EP{L(Y,f(X))}=∫L(y,f(x))P(x,y)dxdy
经验风险/经验损失:
R
e
m
p
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}=\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))
Remp=N1∑i=1NL(yi,f(xi))
N
→
∞
N \rightarrow \infty
N→∞
R
e
x
p
→
R
e
x
p
R_{exp} \rightarrow R_{exp}
Rexp→Rexp
2.经验风险最小化与结构风险最小化
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\min_{f\in F} \frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))
minf∈FN1∑i=1NL(yi,f(xi))
损失函数为对数损失函数,经验风险最小化等价于极大似然估计
为了防止过拟合,结构风险最小化,加入罚项or正则化项
R
s
r
m
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}(f)=\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)
Rsrm(f)=N1∑i=1NL(yi,f(xi))+λJ(f)
4. 算法
学习模型的具体计算方法,可以归结为最优化问题求解
步骤:
- 明确学习模型(模型属于某个函数的集合即假设空间)
假设空间: 输入到输出映射的集合 - 评价准则
- 训练最优模型
- 对数据进行分析预测
目的:
基于数据构建概率统计模型,实现对数据的预测分析
统计学习的分类
监督学习
从标注模型学习预测模型的机器学习
输入空间和输出空间
输入和输出可以取值的集合
(一般来说输入空间小于输出空间)
具体的输入是一个实例:通常用特征向量来表示
x
=
(
x
1
,
x
2
,
⋯
,
x
n
)
∈
R
p
x=(x^{1},x^2,\cdots,x^n)\in R^p
x=(x1,x2,⋯,xn)∈Rp
通常将输入和输出看作输入输出上随机变量
X
,
Y
X,Y
X,Y的取值
输入输出对样本or样本点 ( x 1 , y 1 ) (x_1,y_1) (x1,y1)
数据集
{
(
x
1
,
y
1
)
,
⋯
,
(
x
n
,
y
n
)
}
\{(x_1,y_1),\cdots,(x_n,y_n)\}
{(x1,y1),⋯,(xn,yn)}
分类问题和回归问题:
Y
Y
Y离散or连续
联合概率分布
若
(
X
,
Y
)
(X,Y)
(X,Y)服从
P
(
X
,
Y
)
P(X,Y)
P(X,Y)分布,数据可以认为依概率
P
(
X
,
Y
)
P(X,Y)
P(X,Y)独立同分布产生
无监督学习
从无标注数据中学习模型的机器学习问题
学习数据中的统计规律或潜在结构
e.g. 聚类,降维,概率估计
X
X
X为输入空间,
Z
Z
Z为隐式结构空间
学习的模型
z
=
g
(
x
)
z=g(x)
z=g(x). or.
z
=
P
(
z
∣
x
)
z=P(z|x)
z=P(z∣x)
按模型分类
-
概率模型与非概率模型
Y = f ( X ) Y=f(X) Y=f(X)
P ( Y ∣ X ) P(Y|X) P(Y∣X) -
线性模型与非线形模型
-
参数化模型与非参数化模型
参数化模型假定模型的参数维度固定,模型可以由优先维度参数完全刻画
非参数化模型假定模型的参数维度不固定或无穷大,随训练数据的增加不断增大
模型评估与模型选择
训练误差和测试误差
训练集平均损失
测试集平均损失
0-1损失函数,测试误差=误差率
过拟合与模型选择
对训练数据次模型拟合较好,对未知数据预测很差
模型选择方法: 正则化与交叉验证
正则化
m
i
n
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
min\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)
minN1∑i=1NL(yi,f(xi))+λJ(f)
选择经验风险和模型复杂度同时小的模型
回归模型:
交叉验证
样本量充足: 训练集(训练模型),验证集(模型选择),测试集(模型评估)
样本量不充足:交叉验证
- 简单交叉验证:训练集+测试集
- s折交叉验证
(s-1)训练,1选择
这样的评测进行s次,选择s次平均误差最小的模型 - 留一交叉验证
S=N
都要对模型误差取平均
泛化能力
泛化误差
如果学习到的模型是
f
^
\hat f
f^,那么用这个模型对未知数据进行预测误差就是泛化误差
R
e
x
p
(
f
^
)
=
∫
L
(
y
,
f
^
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{exp}(\hat f)=\int L(y,\hat f(x)) P(x,y)dxdy
Rexp(f^)=∫L(y,f^(x))P(x,y)dxdy
就是期望风险
泛化误差上界
样本容量越大,泛化误差上界越小;假设空间容量越大,泛化误差上界越大
二分类问题的泛化误差上界