统计学习方法概论
第一章主要介绍一些基本概念。
- 统计学习方法三要素:模型、策略和算法。
- 模型选择包括正则化(regularzation)、交叉验证(cross validation)与学习的泛化能力。
- 生成模型(Generative model)和判别模型(Discriminative model).
- 监督学习算法的应用:分类问题(classification)、标注问题、回归问题(regression)
策略
损失函数和风险函数
损失函数(loss function),也成为代价函数(cost function),用来度量预测错误的程度。
包括0-1、平方、绝对、对数损失函数,其中常用的是对数损失函数(log-likelihood loss function)
L(Y,P(Y|X))=-log P(Y|X)
损失函数越小,模型越好。
损失函数的期望是,称为风险函数(risk function)也叫期望损失(expected loss)。
经验风险最小化和结构风险最小化
1.当样本容量足够大时,经验风险最小化(empirical risk minimization,ERM)能保证有很好的学习效果,在现实中被广泛采用。比如极大似然估计
但是当容量小时,就容易产生过拟合(over-fitting)
2.结构风险最小化(structural risk minimization,SRM)是指在经验风险最小化的基础上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。
算法
正则化与交叉验证
L1范数:参数向量W绝对值的和
L2范数:平方的和再开平方
奥卡姆剃刀原理:在所有可能选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型。
交叉验证
简单交叉验证:一部分作为训练集 一部分作为验证机(validation set)
S折交叉验证:首先随机地将已知数据切分为S个互不相交的大小相同的子集;然后用S-1个子集作为训练模型,剩下一个作为测试模型,可以进行S次;最后选出S次评测中平均测试误差最小的模型。
监督学习
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)=P(X,Y)/P(X),典型的有朴素贝叶斯法和隐马尔可夫模型
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(X,Y)作为预测的模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。
典型的包括:k近邻、感知机、决策树、逻辑回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
生成方法特点:学习收敛速度更快,当样本容量增加时,学到的模型可以更快的收敛与真实模型。当存在隐变量时,应可以用生成方法学习,而此时判别方法就不行。
判别方法特点:直接面对预测,学习的准确率更高,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题
分类问题
k近邻、感知机、朴素贝叶斯、决策树、决策列表、逻辑回归、SVM、提升方法、贝叶斯网络、神经网络
标注问题
隐马尔可夫模型、条件随机场