李航《统计学习方法》读书笔记
一、理论知识
定义
统计学习是关于计算机基于数据构建 概率统计模型 并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习。
- 可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
- 现在普遍提及的机器学习,往往是指统计机器学习。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
- 监督学习:从标注数据中学习
- 非监督学习:从无标注数据中学习
- 半监督学习:少量标注数据+大量未标注数据
- 强化学习:在智能系统与环境的连续互动中学习
特点
- 统计学习的对象是数据,是数据驱动的学科。
- 统计学习的目的是对数据进行预测与分析。
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。
统计学习方法三要素
方法=模型+策略+算法,构建一种统计学习方法就是确定具体的统计学习三要素。
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;——决策函数 / 条件概率
(3)确定模型选择的准则,即学习的策略;——经验风险最小化 / 结构风险最小化
(4)实现求解最优模型的算法,即学习的算法;——数值计算方法
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
输入空间: 在监督学习中,将输入所有可能取值的集合称为输入空间。
输出空间: 在监督学习中,将输出所有可能取值的集合称为输出空间。
特征空间: 每个具体的输入是一个实例,通常由特征向量表示;所有特征向量存在的空间称为特征空间,特征空间的每一维对应于一个特征。
模型: 由输入空间到输出空间的映射。
假设空间: 映射的集合。
损失函数(代价函数): 预测错误程度的度量。
风险函数(期望损失): 模型关于联合分布的平均损失。
经验风险(经验损失): 模型关于训练样本集的平均损失。
- 损失函数度量模型一次预测的好坏
- 风险函数度量平均意义下模型预测的好坏
过拟合: 指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
模型选择的方法
- 正则化:在经验风险上加一个正则化项,如
L
1
、
L
2
L1、L2
L1、L2范数。
- 正则化项一般是模型复杂度的单调递增函数
- 正则化等价于结构风险最小化
- 交叉验证:重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
监督学习方法分类
- 生成方法:先由数据学习联合概率分布,再求出条件概率分布作为预测的模型——生成模型
- 可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) ,判别方法不能
- 学习收敛速度更快,即样本容量增加时,生成模型可以可以更快地收敛于真实模型
- 适用于存在隐变量的情况,判别方法不能
- 判别方法:由数据直接学习决策函数或者条件概率分布作为预测的模型
- 直接面对预测,学习的准确率更高
- 可以简化学习问题,对数据进行各种程度上的抽象、定义特征并使用特征
监督学习的应用
- 分类问题:输出变量为有限个离散变量的预测问题。
- 输出为类别
- 标注问题:输入变量与输出变量均为变量序列的预测问题。
- 输出为一个标记序列或状态序列——添加了标注的输入序列
- 回归问题:输入变量与输出变量均为连续变量的预测问题。
- 函数拟合,输出为与 x x x值相对应的 y y y值
二、数学表达
训练集: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋅ ⋅ ⋅ , ( x N , y N ) } T=\left\{ (x_1,y_1), (x_2,y_2), ···, (x_N,y_N) \right\} T={(x1,y1),(x2,y2),⋅⋅⋅,(xN,yN)}
统计学习常用的损失函数:
(1)0-1损失函数
L
(
Y
,
f
(
X
)
)
=
{
1
,
Y
=
̸
f
(
X
)
0
,
Y
=
f
(
X
)
L(Y,f(X))=\left\{ \begin{array}{rcl} 1, & Y=\not f(X) \\ 0, & Y=f(X)\\ \end{array} \right.
L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
(2)平方损失函数
L
(
Y
,
f
(
X
)
)
=
(
Y
−
f
(
X
)
)
2
L(Y,f(X))=(Y-f(X))^2
L(Y,f(X))=(Y−f(X))2
(3)绝对损失函数
L
(
Y
,
f
(
X
)
)
=
∣
Y
−
f
(
X
)
∣
L(Y,f(X))=|Y-f(X)|
L(Y,f(X))=∣Y−f(X)∣
(4)对数损失函数
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
l
o
g
P
(
Y
∣
X
)
L(Y,P(Y|X))=-log\ P(Y|X)
L(Y,P(Y∣X))=−log P(Y∣X)
风险函数:
R
e
x
p
(
f
)
=
E
P
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{exp}(f)=E_P[L(Y,f(X))]=\int_{X\times Y}L(y,f(x))P(x,y)dxdy
Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
经验风险:
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum \limits_{i=1}^NL(y_i,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))
结构风险:
R
s
r
m
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))+\lambda J(f)
Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)