本篇是关于机器学习的开篇之作,这一系列的文章主要是参考李航老师的《统计学习方法》一书,以及兼考虑周志华老师的《机器学习》一书。
本篇博客是该系列的第一篇,主要是关于统计学习一些基本概念中的重难点。
1. 统计学习
- 统计学习:关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科
2. 统计学习的分类
- 一般分为监督学习、无监督学习、强化学习
- 监督学习:从标注数据中学习预测模型的机器学习问题
- 输入空间、特征空间、输出空间
- 无监督学习:从无标注数据中学习预测模型的机器学习问题
- 强化学习:指智能系统在与环境的连续互动中学习最有效行为策略的机器学习问题
- 每一步,根据当前环境的状态以及奖励决定动作,并由此产生下一步的状态和奖励
- 监督学习:从标注数据中学习预测模型的机器学习问题
- 按模型分类
- 概率模型与非概率模型
- 线性模型与非线性模型
- 参数化模型与非参数化模型(区别在于参数的维度是否固定)
- 按算法分类
- 分为在线学习与批量学习
- 在线学习:每次接受一个样本,进行预测,之后学习模型,不断重复以上操作(如随机梯度下降的感知机学习算法)
- 批量学习:一次接受所有数据,学习模型,之后进行预测
- 按技巧分类
- 贝叶斯学习与核方法
3. 统计学习方法三要素
- 方法的三要素为:模型、策略、算法
- 模型:模型的假设空间——可取的模型
- 策略:按照什么准则学习或选择最优模型
- 损失函数、风险函数(损失的期望)
- 经验风险、结构风险——过拟合
- 算法:学习模型的具体计算方法
4. 模型评估与模型选择
- 训练误差和测试误差
- 过拟合
5. 正则化与交叉验证
- 正则化:在经验风险上加上一个正则化项(regularization)或罚项(penalty term),即模型复杂度的单调递增函数
- 正则项常用:参数向量的L2范数或L1范数
- 交叉验证
- 简单交叉验证:选择测试误差最小的模型
- S折交叉验证:选择平均测试误差最小的模型
6. 泛化能力
- 学习方法的泛化能力指的是由该方法学习到的模型对未知数据的预测能力
- 泛化误差=期望风险
- 泛化误差上界
7. 生成模型与判别模型
- 生成模型:学习得到联合概率分布
- 收敛速度较快
- 判别模型:学习得到条件概率分布
- 存在隐变量时不适用
8.监督学习应用
- 主要分为三个方面:分类问题、标注问题、回归问题
- 分类问题:输出变量取有限个离散值
- 精确率(precision)、召回率(recall)、F1值(精确率与召回率的调和平均)
- 算术平均、几何平均、调和平均
- 标注问题:输入一个观测序列,输出一个标记序列
- 回归问题:预测输入变量和输出变量之间的关系
- 最小二乘法