第5章 机器学习基础
5.1 学习算法
5.1.1 任务T
5.1.2 性能度量P
5.1.3 经验E
5.1.4 示例:线性回归
※ 值得注意的是,术语线性回归(linear regression)通常用来指稍微复杂一些,附加额外参数(截距项b)的模型。在这个模型中
因此从参数到预测的映射仍是一个线性函数,而从特征到预测的映射是一个仿射函数。如此扩展到仿射函数意味着模型预测的曲线仍然看起来是一条直线,只是这条直线没必要经过原点。
5.2 容量、过拟合和欠拟合
※ 训练集和测试集数据通过数据集上被称为数据生成过程(data generating process)的概率分布生成。通常,我们会做一系列被统称为独立同分布假设(i.i.d assumption)的假设。该假设是说,每个数据集中的样本都是彼此相互独立的(independent),并且训练集和测试集是同分布的(identically distributed),采样自相同的分布。这个假设使我们能够在单个样本的概率分布描述数据生成过程。然后相同的分布可以用来生成每一个训练样本和每一个测试样本。我们将这个共享的潜在分布称为数据生成分布(data generating distribution),记作pdata。这个概率框架和独立同分布假设允许我们从数学上研究训练误差和测试误差之间的关系。
※ 一下是决定机器学习算法效果是否好的因素:
(1) 降低训练误差
(2) 缩小训练误差和测试误差的差距
这两个因素对应机器学习的两个主要挑战:欠拟合(underfitting)和过拟合(overfitting)。欠拟合是指模型不能再训练集上获得足够低的误差,而过拟合是指训练误差和测试误差之前的差距太大。
※ 通过调整模型的容量(capacity),我们可以控制模型是否偏向于过拟合或者欠拟合。通俗来讲,模型的容量是指其拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。
※ 一种控制训练算法容量的方法是选择假设空间(hypothesis space),即学习算法可以选择为解决方案 的函数集。例如,线性回归算法将关于其输入的所有线性函数作为假设空间。广义线性回归的假设空间包括多项式函数,而非仅有线性函数,这样做就增加了模型的容量。
※ 统计学习理论提供了量化模型容量的不同方法。在这些方法中,最有名的是Vapnik-Chervonenkis维度(Vapnil-Chervonenkis dimension, VC),简称VC维。VC维度量二元分类器的容量。VC维定义为该分类器能够分类的训练样本的最大数目。假设存在m个不同x点的训练集,分类器可以任意地标记该m个不同的x点,VC维被定义为m的最大可能值。
※ 量化模型的容量使得统计学习理论可以进行量化预测。统计学习理论中最重要的结论阐述了训练误差和泛化误差之间差异的上界随着模型容量的增长而增长,但随着训练样本增多而下降。
※ 从预先知道的真实分布p(x,y)预测而出现的误差被称为贝叶斯误差(Bayes error).
※ 任何模型容量小于最优容量的固定参数模型会渐进到大于贝叶斯误差的误差值
5.2.1 没有免费午餐定理
5.2.2 正则化
5.3 超参数和验证集
5.4 估计、偏差和方差
5.4.1 点估计
5.4.2 偏差
估计的偏差被定义为:
其中期望作用在所有数据(看作是从随机变量采样得到的)上,θ 是用于定义数据生成分布的θ的真实值。如果bias(^ θm) = 0,那么估计量^ θm 被称为是无偏(unbiased),这意味着E( ^ θm) = θ。如果lim bias( ^ θm) = 0,那么估计量^ θm 被
称为是渐近无偏(asymptotically unbiased),这意味着limE( ^ θm) = θ。
5.4.3 方差和标准差
※ 中心极限定理告诉我们均值会接近一个高斯分布
5.4.4 权衡偏差和方差以最小化均方误差
5.4.5 一致性
5.5 最大似然估计
5.5.1 条件对数似然和均方误差
5.5.2 最大似然的性质
※ 当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本
5.6 贝叶斯统计
5.6.1 最大后验(MAP)估计
5.7 监督学习算法
5.7.1 概率监督学习