第一章 统计学习方法概论、
图片未能正常显示,请在文件末尾下载PDF文件
1.监督学习、非监督学习
监督学习:学习一个模型,使模型能够对任意的输入,都能给相应的输出做出很好的预测。如分类和回归。事先是有训练数据的
非监督学习: 而无监督学习是事先没有训练数据的,直接对数据进行建模,如聚类等。
2. 回归、分类和标注问题
输入变量与输出变量均为连续变量预测的问题称为回归问题;输出变量为有限个离散变量的问题称为分类问题。输出变量与输出变量均为变量序列的预测问题称为标注问题。
3、损失函数和风险函数
损失函数度量模型一次预测的好坏;风险函数度量平均意义下模型预测的好坏。
常用的损失函数:
1)0-1损失函数
2) 平方损失函数
3)绝对损失函数
=
4)对数损失函数或者对数似然函数
风险函数(损失函数的期望):
4、 经验风险最小化与结构风险最小化
模型f(x)关于训练数据集的平均损失称为经验风险或者经验损失
根据大数定律,当样本容量N趋于无穷时,Remp趋于Rexp
例如,当模型是条件概率分布时,损失函数是对数函数时,经验风险最小化等价于极大似然估计。
结构风险最小化是为了防止样本容量很小的时候产生的过拟合现象。结构风险最小化等价于正则化。结构风险的定义:
5、 过拟合
过拟合是指学习时选择的模型参数过多,对于已知数据预测的很好,但是对于未知数据预测很差的现象。
6 正则化和交叉验证
正则化是结构风险最小化策略的体现,是在经验风险上加一个正则化项或罚项。 其作用是选择经验风险与模型复杂度同时较小的模型。
如果给定的样本充足,模型选择方法是交叉验证。分为训练集、验证集、测试集
7 泛化能力
泛化能力是指由该方法学习到的模型对未知数据的预测能力。事实上,泛化误差就是学习到的模型的期望风险。
8 生成模型和判别模型
监督学习方法分为 生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法:由数据学习联合分布,然后求出条件概率分布。因为模型表示了给定输入X产生输出Y的生成关系。比如朴素贝叶斯。生成方法可以还原出联合概率分布,而判别方法则不能;生成方法的学习收敛速度更快。
判别方法:由决策函数f(x)或者条件概率分布作为预测的模型,判别方法的优点是直接面对预测,简化学习。
9 精确率和召回率
TP-将正类预测为正类
FN—正预测为负
FP—负预测为正
TN—负预测为负
精确率定义:
召回率:
F1值:
文件下载:链接: https://pan.baidu.com/s/1gfOJROn 密码: 2tfr