统计学习方法第一章概论

斯托克斯求曲线
于 2020-05-27 09:48:34 发布
阅读量211
点赞数
分类专栏：统计学习方法
本文链接：https://blog.csdn.net/tangzhaotz/article/details/106373476
版权
统计学习方法专栏收录该内容
1 篇文章 0 订阅
订阅专栏
# 统计学习分类
"""
监督学习：是指从标注数据中学习预测模型的机器学习问题，标注数据表示输入和输出的对应关系，预测模型对给定的输入产生相应的输出。监督学习的本质就是学习输入到输出的映射规律。
输入空间；输入的向量。例如x
特征空间：输入空间到特征空间的映射，如x^2,x^3等
输出变量为连续变量的为回归问题，输出变量为有限个离散的成为分类问题，输入变量与输出变量均为变量序列的问题成为标注问题
假设空间：监督学习的目的是在于学习一个输入到输出的映射，这一映射由模型来表示，模型属于输入空间到输出空间的映射集合，这个集合就是假设空间。假设空间的确定就意味着学习范围的确定
贝叶斯学习：计算在给定数据条件下模型的条件概率，即后验概率，并用这个原理进行模型的估计，以及对数据的预测。将模型、未观测要素及其参数用变量表示，使用模型的先验分布是贝叶斯学习的特点


统计学习方法的三要素有：模型+策略+算法
1、模型：模型就是要学习的条件概率分布或决策函数
假设空间可以是决策函数或者条件概率的集合
2、策略
损失函数：损失函数越小，模型就越好
期望损失：模型关于联合分布的平均意义下的损失，称为风险损失或期望损失
经验损失：模型关于训练集的平均损失成为经验风险
经验风险最小化：经验风险最小化下的模型是最优模型，经验风险最小化能保证有很好的学习效果（比如一个人的经验积累越多，判别力肯定会越好）但是当样本容量很小的时候，
经验风险最小化的学习效果未必很好（毕竟走过的路有点小，以为世界就那么大，所以很容易做出错误的判断），可能会产生“过拟合（over-fitting）”现象。因此这时需要结构风险最小化
结构风险最小化：防止出现过拟合，在经验风险上加上表示模型复杂度的正则化项，用来对模型的复杂度进行惩罚，模型越复杂，惩罚就越大，模型越简单，惩罚就越小。
结构风险要最小，需要经验风险和模型复杂度同时最小
3、算法
在进行统计学习的时候我们需要把训练集分为训练集和测试集，两者没有交集，有时候分为：训练集、验证集和测试集
训练误差是在训练的时候产生的误差，反映的是模型的学习能力
测试误差反应模型对未知事物的预测能力。

过拟合：模型在训练集上表现很好，在测试集上表现不好的现象，通常造成的原因可能是训练集的样本过少，出现以偏概全，还有可能是模型的复杂度过大，模型在训练的时候学习了一些其他不希望出现的特征。

模型选择的方法：正则化和交叉验证
正则化就是结构风险最小化，在经验风险上添加正则项用于对模型复杂度的惩罚。
交叉验证：重复地使用数据，把给定的数据切分，再将分好的数据重复的组合为训练集和测试集，反复地训练、测试。

生成模型和判别模型：
生成模型：生成方法是由数据学习联合概率分布P(X,Y)然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型。给定输入X产生输出Y的关系，因此称为生成模型，常用的模型有：朴素贝叶斯、隐马尔科夫模型
判别模型：由数据直接学习决策函数f(x)或者条件概率分布p(y|x)作为预测模型，判别方法关心的是对于给定的输入x，我们应该预测得到什么样的输出y，常见的判别模型有：k近邻法，感知机，决策树，逻辑斯蒂回归模型
最大熵模型，支持向量机、提升方法和条件随机场

几种模型评估标准：
TP-将正类预测为正类数（d)
FN-将正类预测为负类数(c)
FP-将负类预测为正类数(b)
TN-将负类预测为负类数(a)

精确率：P= d/(d+b)
召回率：R= d / (d+c)
F1：精确率和召回率的调和均值
F1 = (2 *p *R)/(p+R)

准确率：AC
AC= （a+d)/(a+d+b+c)

ROC曲线（详见机器学习西瓜书）

"""