1.1.1统计学习的特点
数据对统计学习很重要
学习: 如果一个系统更能够通过执行某个过程改进它的性能
1.1.2 统计学习研究对象
统计学习研究对象:数据
数据的基本假设是同类数据具有一定的统计规律性。
1.1.3 统计学习的目的
统计学习的目的是对数据的预测和分析
1.1.4 统计学习方法
- 监督学习
- 无监督学习
- 强化学习
概况: 统计学习方法可以概括如下:从给定的、有限的、用于学习的训练数据( training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间( hypothesis space);应用某个评价准则( evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据( test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素,简称为模型( model)、策略( strategy)和算法( algorithm)。
实现统计方法的步骤:
(1)得到一个有限的数据集合
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析
ps:
- 假设空间:备选模型
1.2.1 基本分类
- 监督学习
- 无监督学习
- 强化学习
1.监督学习
监督学习的本质是输入到输出的映射的统计规律
输入空间通常等于特征空间
输入空间:(x)
特征空间
(
x
,
x
2
,
x
3
…
)
\left(x, x^{2}, x^{3} \dots\right)
(x,x2,x3…)
监督学习是带标签的
数据符合独立同分布
训练集:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
}
T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}
T={(x1,y1),(x2,y2),⋯,(xN,yN)}
其中
(
x
1
,
y
1
)
\left(x_{1}, y_{1}\right)
(x1,y1)称为样本点
实例x的特征向量:
x
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
)
T
x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T}
x=(x(1),x(2),⋯,x(n))T
模型:
- 决策函数
Y
=
f
(
X
)
Y=f(X)
Y=f(X)
预测形式 y = f ( x ) y=f(x) y=f(x) - 条件概率分布
P
(
Y
∣
X
)
P(Y | X)
P(Y∣X)
预测形式 arg max P ( y ∣ x ) \arg \max P(y | x) argmaxP(y∣x)
2.无监督学习
无监督学习的本质是学习数据中的统计规律或潜在的结构
3.强化学习
假设智能系统与环境的互动基于马尔可夫决策过程
强化学习的本质是学习最优的序贯策略
1.2.2 按模型分类
1 概率模型和非概率模型或者确定性模型
概率模型是生成模型,非概率模型是判别模型
概率模型和非概率模型的区别不在于输入和输出之间的映射关系,而在于模型的内在结构,概率模型一定可以表示为联合概率分布的形式。
概率模型:朴素贝叶斯
非概率模型:SVM
生成式和判别式的区别
1.2.3 按算法分类
在线学习和批量学习
在线学习=强化学习
1.2.4 按照技巧分类
- 1,贝叶斯学习
- 2,核方法
参考资料: 先验和后验
统计学习方法=模型+策略+算法 这节比较重要
1.3.1 模型
模型就是所要学习的条件概率分布和决策函数
模型的假设空间包含所有可能的条件概率分布和决策函数
- 决策函数
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F=\left\{f | Y=f_{\theta}(X), \theta \in R^{n}\right\} F={f∣Y=fθ(X),θ∈Rn}
其中F是整个假设空间,f是假设空间中其中的一个,它是一个备选模型; θ \theta θ是参数
例子:假如直线 y = a 0 + a 1 x y=a_{0}+a_{1} x y=a0+a1x,那么 θ \theta θ= ( a 0 , a 1 ) (a_{0},a_{1}) (a0,a1) - 条件概率分布
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F=\left\{P\left|P_{\theta}(Y | X), \theta \in R^{n}\right\}\right. F={P∣Pθ(Y∣X),θ∈Rn}
其中F是整个假设空间,P是假设空间中其中的一个,它是一个备选模型,
由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型
1.3.2 策略
1,损失函数和风险函数
统计学习的目标在于从假设空间中选取最优模型
损失函数是度量模型一次预测的好坏
风险函数是平均意义下模型预测的好坏
经验风险或经验损失是关于训练数据集上的平均损失
期望风险是模型关于联合分布的期望损失
当样本趋于无穷时,经验风险趋于期望风险。
损失函数:
0-1损失:
L
(
Y
,
f
(
X
)
)
=
{
1
,
Y
≠
f
(
X
)
0
,
Y
=
f
(
X
)
L(Y, f(X))=\left\{\begin{array}{l} 1, Y \neq f(X) \\ 0, Y=f(X) \end{array}\right.
L(Y,f(X))={1,Y=f(X)0,Y=f(X)
平方损失:
L
(
Y
,
f
(
X
)
)
=
(
Y
−
f
(
X
)
)
2
L(Y, f(X))=(Y-f(X))^{2}
L(Y,f(X))=(Y−f(X))2
绝对值损失:相对于绝对值损失,平方损失更加的敏感,因为平方损失是计算的平方
L
(
Y
,
f
(
X
)
)
=
∣
Y
−
f
(
X
)
∣
L(Y, f(X))=|Y-f(X)|
L(Y,f(X))=∣Y−f(X)∣
对数似然损失,是对于条件概率模型。
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
log
P
(
Y
∣
X
)
L(Y, P(Y | X))=-\log P(Y | X)
L(Y,P(Y∣X))=−logP(Y∣X)
2,经验风险最小化和结构风险最小化
经验风险最小的模型是最优的模型
结构风险最小化是为了防止过拟合而提出来的策略,结构风险最小化等价于正则化
经验风险最小化:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
f∈FminN1i=1∑NL(yi,f(xi))
结构风险最小化:它是在经验风险最小化的基础上加入了正则化,正则化是平衡了经验风险和模型的复杂度;
λ
\lambda
λ如果很大,是选择模型的复杂度小的模型,如果
λ
\lambda
λ很小,是选择经验风险小的。
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
\min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
1.3.2 算法
算法是指学习模型的具体计算方法
1.4.1 训练误差与测试误差
训练误差:
1
N
∑
i
=
1
N
L
(
y
i
,
f
^
(
x
i
)
)
\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \widehat{f}\left(x_{i}\right)\right)
N1i=1∑NL(yi,f
(xi))
测试误差:
1
N
′
∑
i
=
1
N
′
L
(
y
i
,
f
^
(
x
i
)
)
\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \widehat{f}\left(x_{i}\right)\right)
N′1i=1∑N′L(yi,f
(xi))
1.4.2 过拟合与模型选择
当假设空间含有不同复杂度的模型时,就要面临模型选择的问题。
模型选择主要是避免过拟合并提高模型的预测能力
1.5.1正则化
模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大,比如,正则化项可以是模型参数向量的范数
1.5.2 交叉验证
另一种常用的模型选择方法式交叉验证
1.简单交叉验证
数据分成两个部分,训练集和测试集
2.S折交叉验证
应用最多的是S折交叉验证(S-fold cross validation),
3.留一交叉验证
1.6.1 泛化误差
统计学习理论试图从理论上对学习方法的泛化能力进行分析
泛化误差就是所学习到的模型的期望风险
1.6.2 泛化误差上界
对于一个二分类问题,当假设空间是有限个函数的集合
F
=
{
f
1
,
f
2
,
⋯
,
f
d
}
F=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}
F={f1,f2,⋯,fd}时,对于任意一个函数
f
∈
F
f \in F
f∈F,至少以概率
1
−
δ
1-\delta
1−δ,以下不等式成立:
R
(
f
)
≤
R
^
(
f
)
+
ε
(
d
,
N
,
δ
)
R(f) \leq \widehat{R}(f)+\varepsilon(d, N, \delta)
R(f)≤R
(f)+ε(d,N,δ)
R
(
f
)
R(f)
R(f)是期望风险,
R
^
(
f
)
\widehat{R}(f)
R
(f)在训练集上的经验风险
其中
ε
(
d
,
N
,
δ
)
=
1
2
N
(
log
d
+
log
1
δ
)
\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}
ε(d,N,δ)=2N1(logd+logδ1)
N是样本量,d是备选模型的个数
生成方法是有数据学习联合概率分布,然后求出条件概率分布作为预测模型,即生成模型
判别方法有数据直接学习决策函数或者条件概率分布作为预测的模型,即判别模型
生成方法:
P
(
Y
∣
X
)
=
P
(
X
,
Y
)
P
(
X
)
P(Y | X)=\frac{P(X, Y)}{P(X)}
P(Y∣X)=P(X)P(X,Y)
判别方法:
f
(
X
)
f(X)
f(X) 或
P
(
Y
∣
X
)
P(Y | X)
P(Y∣X)
1.8.1 分类问题
TP一将正类预测为正类数
FN一将正类预测为负类数;
FP一将负类预测为正类数
TN一将负类预测为负类数
精确率:预测出来是正类的里面有多少是正确的
P
=
T
P
T
P
+
F
P
P=\frac{T P}{T P+F P}
P=TP+FPTP
召回率:真实情况是正类的预测准确的概率是多少
R
=
T
P
T
P
+
F
N
R=\frac{T P}{T P+F N}
R=TP+FNTP
本章概要
1.统计学习或机器学习是关于计算机基于数据构建概率统计模型并运用模型对
数据进行分析与预测的一门学科。统计学习包括监督学习、无监督学习和强化学习。
2.统计学习方法三要素——模型、策略、算法,对理解统计学习方法起到提纲挈
领的作用。
3.本书第1篇主要讨论监督学习,监督学习可以概括如下:从给定有限的训练数
据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价
准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给
定评价标准意义下有最准确的预测。
4.统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。如果
只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化与交叉验证
学习方法泛化能力的分析是统计学习理论研究的重要课题。
5.分类问题、标注问题和回归问题都是监督学习的重要问题。本书第1篇介绍的
统计学习方法包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵
模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场。这些方法是
主要的分类、标注以及回归方法。它们又可以归类为生成方法与判别方法。