统计学习对象
统计学习对象是数据,从数据出发,提取出特征,抽象出数据模型,发现数据知识,用于对回溯的分析和预测中
统计学习方法
- 获取新年数据集合
- 确定所有可能包含模型的假设空间,即学习模型的集合(模型)
- 确定模型选择准则(策略)
- 实现最优求解模型的算法(算法)
- 选择最优模型
- 利用最优模型分析预测新数据
监督学习
每一个输入实例由一个输入向量表示
- 回归:输入输出变量均为连续值
- 分类:输出变量为有限哥离散值
- 标注:输入输出变量均为变量序列
统计学习基本假设:训练数据与测试数据独立同分布
统计学习三要素:模型,策略,算法
常见损失函数
期望损失
经验损失
由大数定律,样本增加,经验损失趋近(依概率收敛)于期望损失
结构风险(奥卡姆剃刀原则)
- 经验风险小的模型在小数据集上容易过拟合,结构风险最小化等价于正则化
- 结构风险在经验风险的基础上增加增加模型复杂度正则化项(罚项)
训练误差与测试误差
- 泛化能力:对未知样本的预测能力
- 泛化误差:本质是模型的期望风险
生成模型与判别模型
判别模型是数据得出决策函数f(x)或者条件概率分布P(Y/X)作为预测的模型
分类指标
感知机:
二分线性分类,判别模型,误分类驱动,随机梯度下降优化
感知机函数
感知机损失函数
损失函数:误分类点集到超平面的距离和