第二章 机器学习概述
-
样本、特征(属性)、标签(用于预测的属性)、模型、学习算法
-
我们通常用一个 D 维向量 𝒚 = [𝑦1, 𝑦2, ⋯ , 𝑦D]T表示一个芒果的所有特征构成的向量, 称为特征向量 (Feature Vector), 其中每一维表示一个特征.并不是所有的样本特征都是数值型, 需要通过转换表示为特征向量。而芒果的标签通常用标量 y 来表示.
-
寻找最优函数的过程就称为学习或训练过程
-
图2.2给出了机器学习的基本流程. 对一个预测任务, 输入特征向量为 𝒚, 输出标签为 y, 我们选择一个函数集合 ℱ, 通过学习算法 A 和一组训练样本 𝒟, 从 ℱ中学习到函数 f∗(𝒚). 这样对新的输入 𝒚, 就可以用函数 f∗(𝒚) 进行预测.
机器学习的三个基本要素
模型、 学习准则、 优化算法.
-
模型
-
学习准则
对于两个概率分布, 一般可以用交叉熵来衡量它们的差异
-
过拟合
-
训练样本往往是真实数据的一个很小的子集或者包含一定的噪声数据, 不能很好地反映全部数据的真实分布. 经验风险最小化原则很容易导致模型在训练集上错误率很低, 但是在未知数据上错误率很高. 这就是所谓的过拟合
-
过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的
-
为了解决过拟合问题, 一般在经验风险最小化的基础上再引入参数的正则化(Regularization)来限制模型能力,使其不要过度地最小化经验风险
-
-
欠拟合
模型不能很好地拟合训练数据, 在训练集上的错误率比较高. 欠拟合一般是由于模型能力不足造成的
-
优化算法
-
在贝叶斯方法中, 超参数可以理解为参数的参数, 即控制模型参数分布的参数
-
在每次迭代时,把新得到的模型 𝑔(𝒚; 𝜃) 在验证集上进行测试,并计算错误率.如果在验证集上的错误率不再下降, 就停止迭代. 这种策略叫提前停止(Early Stop). 如果没有验证集,可以在训练集上划分出一个小比例的子集作为验证集.
-
批量梯度下降和随机梯度下降之间的区别在于, 每次迭代的优化目标是对所有样本的平均损失函数还是对单个样本的损失函数. 由于随机梯度下降实现简单, 收敛速度也非常快, 因此使用非常广泛. 随机梯度下降相当于在批量梯度下降的梯度上引入了随机噪声. 在非凸优化问题中, 随机梯度下降更容易逃离局部最优点.
-
随机梯度下降法的一个缺点是无法充分利用计算机的并行计算能力. 小批量梯度下降法(Mini-Batch Gradient Descent)是批量梯度下降和随机梯度下降的折中. 每次迭代时, 我们随机选取一小部分训练样本来计算梯度并更新参数, 这样既可以兼顾随机梯度下降法的优点, 也可以提高训练效率.
-
偏差-方差分解
目的:在模型的复杂度与拟合能力之间取得一个较好的平衡
方差一般会随着训练样本的增加而减少. 当样本比较多时, 方差比较少, 这时可以选择能力强的模型来减少偏差一般来说, 当一个模型在训练集上的错误率比较高时, 说明模型的拟合能力不够, 偏差比较高. 这种情况可以通过增加数据特征、 提高模型复杂度、减小正则化系数等操作来改进. 当模型在训练集上的错误率比较低, 但验证集上的错误率比较高时, 说明模型过拟合, 方差比较高. 这种情况可以通过降低模型复杂度、 加大正则化系数、 引入先验等方法来缓解. 此外, 还有一种有效降低方差的方法为集成模型, 即通过多个高方差模型的平均来降低方差.
机器学习算法的类型
-
按函数 𝑔(𝒚; 𝜃) 的不同
- 线性模型
- 非线性模型
-
按照学习准则的不同
- 统计方法
- 非统计方法
-
按照训练样本提供的信息以及反馈方式的不同
-
监督学习 :如果机器学习的目标是建模样本的特征 𝒚 和标签 𝑧 之间的关系: 𝑧 =𝑔(𝒚; 𝜃) 或 𝑞(𝑧|𝒚; 𝜃), 并且训练集中每个样本都有标签, 那么这类机器学习称为监督学习 (Supervised Learning)
- 根据标签类型的不同, 监督学习又可以分为回归问题、 分类问题和结构化学习问题.
- 根据标签类型的不同, 监督学习又可以分为回归问题、 分类问题和结构化学习问题.
-
无监督学习
- 无监督学习参见第9章. 是指从不包含目标标签的训练样本中自动学习到一些有价值的信息. 典型的无监督学习问题有聚类、密度估计、 特征学习、 降维等.
-
强化学习
- 在强化学习中, 智能体根据环境的状态做出一个动作, 并得到即时或延时的奖励. 智能体在和环境的交互中不断学习并调整策略, 以取得最大化的期望总回报.
- 在强化学习中, 智能体根据环境的状态做出一个动作, 并得到即时或延时的奖励. 智能体在和环境的交互中不断学习并调整策略, 以取得最大化的期望总回报.
-
数据的特征表示
-
图像特征
-
文本特征
-
表示学习
-
如果直接用数据的原始特征来进行预测, 对机器学习模型的能力要求比较高. 这些原始特征可能存在以下几种不足: 1)特征比较单一, 需要进行(非线性的) 组合才能发挥其作用; 2) 特征之间冗余度比较高; 3) 并不是所有的特征都对预测有用; 4) 很多特征通常是易变的;5) 特征中往往存在一些噪声.
-
一个成功的机器学习系统通常需要尝试大量的特征, 称为特征工程 (Feature Engineering)
-
如何让机器自动地学习出有效的特征也成为机器学习中的一项重要研究内容, 称为特征学习(Feature Learning), 也叫表示学习(Representation Learning).特征学习在一定程度上也可以减少模型复杂性、 缩短训练时间、 提高模型泛化能力、 避免过拟合等.
-
表示学习可以看作一个特殊的机器学习任务,即有自己的模型、学习准则和优化方法.
-
传统的特征学习
-
特征选择
选取原始特征集合的一个有效子集, 使得基于这个特征子集训练出来的模型准确率最高. 简单地说, 特征选择就是保留有用特征, 移除冗余或无关的特征.
子集搜索: 常用的方法是采用贪心的策略
ℓ1正则化 :ℓ1 正则化会导致稀疏特征, 因此间接实现了特征选择 -
特征抽取
-
经过特征选择或特征抽取后, 特征的数量一般会减少, 因此特征选择和特征抽取也经常称为维数约减或降维 (Dimension Reduction)
-
深度学习方法
将特征的表示学习和机器学习的预测学习有机地统一到一个模型中, 建立一个端到端的学习算法, 就可以有效地避免它们之间准则的不一致性.这种表示学习方法称为深度学习 (Deep Learning, DL).参见第1.3节. 深度学习方法的难点是如何评价表示学习对最终系统输出结果的贡献或影响, 即贡献度分配问题. 目前比较有效的模型是神经网络, 即将最后的输出层作为预测学习, 其他层作为表
示学习.
-
评价指标
理论和定理
-
PAC 学习理论–可能近似正确(Probably Approximately Correct, PAC) 学习理论.
-
没有免费午餐定理
没有免费午餐定理证明: 对于基于迭代的最优化算法, 不存在某种算法对所有问题 (有限的搜索空间内) 都有效. 如果一个算法对某些问题有效, 那么它一定在另外一些问题上比纯随机搜索算法更差. 也就是说, 不能脱离具体问题来谈论算法的优劣, 任何算法都有局限性. 必须要 “具体问题具体分析”.
-
奥卡姆剃刀原理—如无必要, 勿增实体
- 奥卡姆剃刀的思想和机器学习中的正则化思想十分类似: 简单的模型泛化能力更好. 如果有两个性能相近的模型, 我们应该选择更简单的模型
- 奥卡姆剃刀的一种形式化是最小描述长度 (Minimum Description Length,MDL) 原则, 即对一个数据集 𝒟, 最好的模型 𝑔 ∈ ℱ 会使得数据集的压缩效果最好, 即编码长度最小.
-
丑小鸭定理
- 丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大
-
归纳偏置