将记录学习此书的历程。以章节为单位。最后还会开辟专题。
统计学习方法三要素:模型(model)、策略(strategy)、算法(algorithm)。
Supervised learning:它的任务是学习一个模型,使模型能够对任意给定的输入与其相应的输出做一个好的输出。
回归问题:输入变量与输出变量均为连续变量的预测问题;
分类问题:输出变量为有限个离散变量的预测问题称为分类问题。
一个关于监督学习数据的基本假设是:随机变量X和Y具有联合概率分布。
损失函数:度量模型一次预测的好坏;
风险函数:度量平均意义下模型预测的好坏。
损失函数(Loss Function):记作
常用的损失函数有:1.0-1损失函数;2.平方损失函数;3.绝对损失函数;4.对数损失函数;
风险函数(risk function)或平均期望损失(expected loss)
它是关于联合分布 的平均意义下的损失
学习目标:选择期望风险最小的模型;
经验风险(empirical risk)或经验损失(empirical loss)
它是关于训练集的平均损失;
用经验风险去估计期望风险往往结果不理想,因此有如下策略:
1.经验风险最小化;
2.结构风险最小化;
经验风险最小化(empirical risk minimization,ERM)
例子:极大似然估计(maximum likelihood estimation)
但是,当样本容量很小时,会产生“过拟合(over-fitting)”现象。
结构风险最小化(structural risk minimization,SRM)
它是等价于“正则化(regularization)”——防止过拟合而提出的策略,正则化的作用就是选择经验风险与模型复杂度同时较小的模型。
定义结构风险: ,其中 叫做正则化项(regularizer)或罚项(penalty term),它可以是参数向量的二范数,也可以是参数向量的一范数。
为模型的复杂度,表示对模型的惩罚;它与模型f呈正相关。
应用实例:贝叶斯估计中的最大后验概率估计。
泛化能力(generalization ability)
表示方法对未知数据的预测能力
过拟合(over—fitting)
学习时选择模型所包含的参数越多,对已知数据预测地越好,但是对未知数据预测的效果不好。
常用的模型选择方法:正则化和交叉验证
交叉验证(cross validation)
数据可以分为三部分:
1.训练集(training set)训练模型
2.验证集(validation set)模型的选择
3.测试集(test set)对学习方法的评估
常用的验证方法有:
1.简单交叉验证
2.S折交叉验证(S-fold cross validation)
3.留一交叉验证(leave-one-out cross validation)
泛化误差上界(generalization error bond)
泛化误差通常具有以下的性质:
1.它是样本容量的函数,当样本容量增加时,泛化上界趋于0;
2.它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
二分类评价指标:
分类结果混淆矩阵:
1.精确率(precsion)
2.召回率(recall)
两者是相互矛盾的!
此外定义精确率和召回率的调和平均
显然,精确率和召回率的增加,F1的值也会增加。
回归问题等价于函数拟合
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由最小二乘法(least squares)求解