基础概念
期望风险、经验风险、结构风险
-
经验风险:就是训练误差
-
结构风险:训练误差 + 表示模型复杂度的正则项(结构风险就是训练误差和模型复杂度之和)
经验风险是局部概念,针对训练样本的损失函数,可以求得。
期望风险是全局概念,针对未知测试样本的损失函数,求不得。
结构风险是两者的折中处理,是经验风险和正则化的加和。
第一章 统计学习方法概论
模型选择的典型方法:正则化和交叉验证。
1.正则化
就是在经验风险的基础上,再加一个正则化项,正则化项一般是模型参数向量的范数。模型越复杂,正则化值越大,也就是说在满足条件的情况下,应该选择尽量简单的模型。
2.交叉验证
数据集常被分为三部分,训练集、验证集和测试集,最终==选择对验证集有最小预测误差的模型==。
交叉验证就是重复使用数据,具体分为:
-
简单交叉验证
训练数据只分一次组,用来测试的(验证集)是固定且唯一的,选择使得验证集上误差 最小的模型。
-
S折交叉验证
训练数据随机分成S个不相交的子集,S-1份用于训练,1份用于验证,最后选出S次评测中平均验证误差最小的模型。
3.泛化能力
泛化能力,就是模型对未知数据的预测能力。训练误差越小,泛化误差也越小。
4.生成模型与判别模型
简单学习的目的就是学习一个模型,这个模型的一般形式为决策函数:
Y
=
f
(
X
)
Y=f(X)
Y=f(X)或者条件概率分布:
Y
=
f
(
Y
∣
X
)
Y=f(Y|X)
Y=f(Y∣X)
监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法
学习联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),然后求出条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)作为预测的模型,即生成模型:
P
(
Y
∣
X
)
=
P
(
X
,
Y
)
P
(
X
)
P(Y|X)=\frac{P(X,Y)}{P(X)}
P(Y∣X)=P(X)P(X,Y)
典型的生成模型有:朴素贝叶斯法,隐马尔可夫模型
特点:学习收敛速度快
判别方法
直接学习决策函数
f
(
X
)
f(X)
f(X)或条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X),通过该方法学到的模型称为判别模型。
典型的判别模型有:k近邻法,感知机,决策树,逻辑回归,最大熵模型,支持向量机,提升方法,条件随机场等。
特点:准确率更高。
5.分类问题
分类问题:就是当输出变量Y取有限个离散值的时候,这个问题就是分类问题。
准确率就是:预测的所有正类中,预测对了的正类所占比例。
召回率是:真实的所有正类中,预测对了的正类所占比例。
两者的分子部分是一样的,都是预测对了的正类,分母不一样。
6.回归问题
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以用最小二乘法求解。