统计学习的目的:用已知数据的信息来对未知数据进行预测和分析
统计学习方法:
监督 (主要是对此讲解)
半监督 (是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题)
非监督
监督学习几个部分
1)训练数据也就是输入实例的特征向量X,输出结果Y,假设X,Y遵循联合概率分布P(X,Y)-->为分布密度函数
训练数据和测试数据被认为是依P(X,Y)独立同分布的
通常情况X,Y的联合概率分布是未知的
2)模型
学习的输入到输出的映射-->模型()
所有可能的能满足样本输入和输出的模型的集合叫做假设空间
3评价准则
损失函数-->一次预测的好坏
风险函数-->平均意义下模型预测的好坏(期望损失)
损失函数:
1)0-1损失函数(感知机使用这种损失函数)
0-1损失并不依赖T值的大小,只取决于T的正负号。0-1损失是一个非凸的函数,在求解的过程中,存在很多的不足,通常在实际的使用中将0-1损失函数作为一个标准,选择0-1损失函数的代理函数作为损失函数。
2)绝对值损失函数
3)平方损失函数
4)对数损失函数
风险函数:
1)经验风险(期望损失)
经验风险最小化会因为样本少而出现严重的过拟合现象
2)结构化风险最小化为了防止过拟合而提出的策略(数学原理稍后介绍)
通过最小化结构风险,拟合模型。
最优化问的有显示的解析解,算法就很容易求解;但是解析解通常并不存在,所以需要用逼近的方式。
生成模型和判别模型
判别模型:由数据直接学习函数的概率分布,不考虑样本的产生模型
简单的说,假设 o 是观察值,m 是模型。
如果对 P(o|m) 建模,就是生成式模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和 Bayes 理论的基础之上。
判别函数模型:就是用数据直接学习决策函数作为预测模型,也就是不考虑样本的产生模型。
如果对条件概率 P(m|o) 建模,就是判别模型。其基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。代表性理论为统计学习理论。
统计学习方法的几个问题
1)分类问题
二分类问题评价指标:(TP FN FP TN)
2)标注问题
输入是一个序列,输出一个标记序列或者状态序列
3)回归问题(最小二乘法求解)
拟合一个连续函数
。