# 统计学习分类
"""
监督学习:是指从标注数据中学习预测模型的机器学习问题,标注数据表示输入和输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质就是学习输入到输出的映射规律。
输入空间;输入的向量。例如x
特征空间:输入空间到特征空间的映射,如x^2,x^3等
输出变量为连续变量的为回归问题,输出变量为有限个离散的成为分类问题,输入变量与输出变量均为变量序列的问题成为标注问题
假设空间:监督学习的目的是在于学习一个输入到输出的映射,这一映射由模型来表示,模型属于输入空间到输出空间的映射集合,这个集合就是假设空间。假设空间的确定就意味着学习范围的确定
贝叶斯学习:计算在给定数据条件下模型的条件概率,即后验概率,并用这个原理进行模型的估计,以及对数据的预测。将模型、未观测要素及其参数用变量表示,使用模型的先验分布是贝叶斯学习的特点
统计学习方法的三要素有:模型+策略+算法
1、模型:模型就是要学习的条件概率分布或决策函数
假设空间可以是决策函数或者条件概率的集合
2、策略
损失函数:损失函数越小,模型就越好
期望损失:模型关于联合分布的平均意义下的损失,称为风险损失或期望损失
经验损失:模型关于训练集的平均损失成为经验风险
经验风险最小化:经验风险最小化下的模型是最优模型,经验风险最小化能保证有很好的学习效果(比如一个人的经验积累越多,判别力肯定会越好)但是当样本容量很小的时候,
经验风险最小化的学习效果未必很好(毕竟走过的路有点小,以为世界就那么大,所以很容易做出错误的判断),可能会产生“过拟合(over-fitting)”现象。因此这时需要结构风险最小化
结构风险最小化:防止出现过拟合,在经验风险上加上表示模型复杂度的正则化项,用来对模型的复杂度进行惩罚,模型越复杂,惩罚就越大,模型越简单,惩罚就越小。
结构风险要最小,需要经验风险和模型复杂度同时最小
3、算法
在进行统计学习的时候我们需要把训练集分为训练集和测试集,两者没有交集,有时候分为:训练集、验证集和测试集
训练误差是在训练的时候产生的误差,反映的是模型的学习能力
测试误差反应模型对未知事物的预测能力。
过拟合:模型在训练集上表现很好,在测试集上表现不好的现象,通常造成的原因可能是训练集的样本过少,出现以偏概全,还有可能是模型的复杂度过大,模型在训练的时候学习了一些其他不希望出现的特征。
模型选择的方法:正则化和交叉验证
正则化就是结构风险最小化,在经验风险上添加正则项用于对模型复杂度的惩罚。
交叉验证:重复地使用数据,把给定的数据切分,再将分好的数据重复的组合为训练集和测试集,反复地训练、测试。
生成模型和判别模型:
生成模型:生成方法是由数据学习联合概率分布P(X,Y)然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。给定输入X产生输出Y的关系,因此称为生成模型,常用的模型有:朴素贝叶斯、隐马尔科夫模型
判别模型:由数据直接学习决策函数f(x)或者条件概率分布p(y|x)作为预测模型,判别方法关心的是对于给定的输入x,我们应该预测得到什么样的输出y,常见的判别模型有:k近邻法,感知机,决策树,逻辑斯蒂回归模型
最大熵模型,支持向量机、提升方法和条件随机场
几种模型评估标准:
TP-将正类预测为正类数(d)
FN-将正类预测为负类数(c)
FP-将负类预测为正类数(b)
TN-将负类预测为负类数(a)
精确率:P= d/(d+b)
召回率:R= d / (d+c)
F1:精确率和召回率的调和均值
F1 = (2 *p *R)/(p+R)
准确率:AC
AC= (a+d)/(a+d+b+c)
ROC曲线(详见机器学习西瓜书)
"""
11-13
11-13