机器学习
1. 绪论
1.1 引言
机器学习定义:
致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的一门科学
研究的主要内容:关于在计算机上从数据中产生“模型”的算法,即“学习算法”
1.2 基本术语
1.2.1 数据描述
训练集:训练样本组成的集合
测试集:测试样本组成的集合
1.2.2 机器学习分类
建模预测的本质:预测任务是希望通过队训练集{(x1,y1),(x2,y2)…(xm,ym)}进行学习,建立一个从输入空间X到输出空间Y的映射 f : X→Y
1.2.3 泛化能力
泛化能力:模型适用于新样本的能力,即具有强泛化能力的模型能很好地使用于整个样本空间
一般而言,训练样本越多,我们得到的关于未知分布的信息越多,这样越有可能通过学习获得具有强泛化性能力的模型
1.3 假设空间
模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间
1.3.1 科学推理的两大基本手段
归纳:从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律
演绎:从一般到特殊的“特化”过程,即从基础原理推演出特殊情况
1.3.2 归纳学习
广义——从样例中学习
侠义——概念学习
布尔概念学习:概念学习中最基础,即对“是”、“不是”这样的可表示0/1布尔值的目标概念的学习
布尔表达式:
如,“好瓜→(色泽=?)^(根蒂=?)^(敲声=?)”
1.4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,就是归纳偏好
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”
要讨论算法的优劣,必须要针对具体的学习问题,学习算法自身的归纳偏好与问题是否匹配,大多数时候直接决定了算法能否取得好的性能
奥卡姆剃刀
若有多个假设于观察一致,则选最简单的那个
NFL定理(没有免费的午餐)
无论学习算法a多聪明,学习算法b多笨拙,他们的期望性能竟然相同
前提:所有”问题”出现的机会相同,或所有问题同等重要,但实际情况并不是这样
2. 模型评估与选择
2.1 经验误差与过拟合
训练(经验)误差:学习器在训练集上的误差
泛化误差:新样本上的误差
过拟合:当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般特质
欠拟合:对训练样本的一般性质尚未学好
过拟合 | 欠拟合 | |
---|---|---|
导致因素 | 学习能力过于强大,把训练样本的不太一般的特性都学到了 | 学习能力低下 |
克服难度 | 麻烦 | 容易 |
能否彻底避免 | 不能 | 可能 |