统计学习方法-李航(第一章1)
第一章 统计学习概论
1.1 统计学习
1、统计学习是关于计算机基于数据构建概论统计模型并运用模型对数据进行预测与分析的一门学科。
2、统计学习的对象是数据,关于数据的基本假设是同类数据具有一定的统计规律性。
3、统计学习的目的是对数据进行预测与分析。考虑什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能提高效率。
4、统计学习方法:监督学习、非监督学习、半监督学习、强化学习。
监督学习:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据和未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
统计学习方法包括模型的假设空间、模型选择的准则和模型学习算法,为统计学习方法的三要素。(模型、策略、方法)
1.2 监督学习
将输入与输出所有可能取值的集合分别称为输入空间和输出空间。
每个具体的输入是一个实例,通常由特征向量表示。
所有特征向量存在的空间称为特征空间。特征空间的每一维对应一个特征。
有时假设输入空间与特征空间是相同的空间,有时假设输入空间与特征空间不同,将实例从输入空间映射到特征空间。
模型实际上都是定义在特征空间上的。
输入与输出对称为样本。
输入变量与输出变量均为连续变量的预测问题为回归问题;
输入变量为有限个离散变量的预测问题称为分类问题;
输入变量与输出变量均为变量序列的预测问题称为标注问题。
训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。
学习的目的在于找到最好模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间意味着学习范围的确定。
监督学习如果是概率模型的话:表示为P(Y|X),如果是非概率模型,表示为y=f(x)。
监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。这个过程中需要训练数据集,而训练数据集往往是人工给出的,所以称为监督学习。监督学习分为学习和预测两个过程。
1.3 统计学习的三要素
方法=模型+策略+算法
模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
策略:按照什么样的准则学习或选择最优的模型。
损失函数(代价函数)度量模型一次预测的好坏,记作L(Y,f(X));风险函数度量平均意义下模型预测的好坏。
常用的损失函数:
(1)0-1损失函数
(2)平方损失函数
(3)绝对损失函数
(4)对数损失函数(对数似然损失函数)
风险函数(期望损失、期望风险——理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失)
R
e
x
p
(
f
)
=
E
p
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
∗
Y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{exp}(f)=E_p[L(Y,f(X))]=\int_{X*Y}L(y,f(x))P(x,y)dxdy
Rexp(f)=Ep[L(Y,f(X))]=∫X∗YL(y,f(x))P(x,y)dxdy
一方面不知道根据期望风险最小学习模型要用到的联合分布,另一方面联合分布又是未知的,所以监督学习就成为了一个病态问题。
模型f(X)关于训练数据集的平均损失称为经验风险或经验损失。
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))
当样本容量趋于无穷时,经验风险趋于期望风险。
用经验风险估计期望风险用到:经验风险最小化和结构风险最小化。