统计学习的对象,目的,方法:
统计学习对象 : 数据
统计学习目的 : 对数据进行分析,预测
统计学习方法 : 基于数据构建概率统计模型而对数据进行预测分析
统计学习方法的实现步骤:
1 得到一个有限的训练数据集合
2 确定包含所有可能的模型的假设空间,即学习模型的集合
3 确定模型选择的准则,即学习的策略
4 实现求解最优模型的算法,即学习的算法
5 同学学习方法选择最优模型
6 利用学习的最优模型对新数据进行预测或分析
统计学习的分类:
基本分类:
监督学习:是从标注数据中学习预测模型的机器学习问题
无监督学习:是从无标注数据中学习预测模型的机器学习问题
强化学习:是指智能系统在于环境的连续互动中学习最优行为策略的机器学习问题
半监督学习,主动学习
按模型分类:
概率模型和非概率模型
线性模型和非线性模型
参数化模型和非参数化模型
按算法分类
在线学习,批量学习
按技巧分类:
贝叶斯学习,核方法
统计学习方法三要素:
方法 = 模型 + 策略 + 算法
模型:找到一个能够解决问题的条件概率或者决策函数
策略:找到一个能够可以优化模型(或者衡量模型的)的损失函数。
算法:找到一种可以优化损失函数的方法。
损失函数与风险函数:
损失函数(代价函数):度量预测错误的程度
风险函数(期望损失):损失函数的期望,表示平均意义上的模型预测的好坏
经验风险最小化与结构风险最小化:
经验风险最小化 :认为经验风险最小的模型就是最优模型
结构风险最小化 :为了防止过拟合,在经验风险上加上表示模型复杂度的正则化项或罚项
模型评估:
训练误差 :模型在训练集上的误差,反映模型的学习能力
测试误差 :模型在测试集上的误差,反映模型的预测能力
过拟合 :一味追求提高对训练数据的预侧能力,所选模型的复杂度则往往会比真模型更高的一种现象,学习时选
择的模型对己知数据(训练数据集中的数据)预测得很好,但对未知数据(测试数据集中的数据)预测得很差
模型的选择:
正则化 :结构风险最小化策略的实现,在经验风险上加上表示模型复杂度的正则化项或罚项
交叉验证 :重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复
地进行训练、测试以及模型选择.
泛化能力:
由方法学习到的模型对未知数据的预测能力
生成模型与判别模型:
生成模型 :生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型
判别模型 :判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型
监督学习应用:
分类问题:
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器,分类器对新的输入进行输出的预测,称为分类
分类问题包括学习和分类两个问题
分类应用例子 :文本分类,输入文本的特征向量,输出文本的类别。
标注问题:
输入一个观测序列,输出一个标记序列或状态序列,标注问题的目标在于学习一个模型,使它能够对预测序列给出
标记序列作为预测,标注问题包括学习和标注两个过程
标注问题应用 :信息抽取,自然语言处理
信息抽取应用 :从英文文章中抽取出基本名词短语
回归问题:
用于预测输入变量和输出变量之间的关系,当输入变量的值发生变化时,输出变量的值随之发生变化。回归模型表
示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已
知数据且很好地预测未知数据,回归问题包括学习和预测两个过程
回归问题应用:市场趋势预测,产品质量管理,客户满意度调查,投资风险分析