机器学习简介—模型评估与选择
纲要
- 模型选择的原则
- 模型的性能指标
- 模型评估的方法
- 模型性能的比较
目标
- 了解模型选择的原则
- 掌握交叉验证法评估模型
- 熟悉常见模型的性能指标
- 了解模型评估的误差与方差
模型选择
误差:是模型的预测输出值与其真实值之间的差异。
训练:通过已知的样本数据进行学习,从而得到模型的过程。
训练误差:模型作用于训练集时的误差。
泛化:由具体的、个别的扩大为一般的,即从特殊到一般,称为泛化。对机器学习的模型来讲,泛化是指模型作用于新的样本数据(非训练集)。
泛化误差:模型作用于新的样本数据时的误差。
欠拟合和过拟合
-
模型容量:是指其拟合各种模型的能力。
-
过拟合:是某个模型在训练集上表现很好,但是在新样本上表现差。
模型将训练集的特征学习的太好,导致一些非普遍规律被模型接纳和体现,从而在训练集上表现好,但是对于新样本表现差。反之则称为欠拟合
-
欠拟合:即模型对训练集的一般性质学习较差,模型作用于训练集时表现不好。
模型选择
模型选择:针对某个具体的任务,通常会有多种模型可供徐泽,对同一个模型也会有多组参数,可以通过分析、评估模型的泛化误差,选择泛化误差最小的模型。
评估思路
通过实验测试,对模型的泛化误差进行评估,选出泛化误差最小的模型。待数据集全集未知,使用测试集进行泛化测试,测试误差即为泛化误差的近似。
- 测试集和训练集尽可能互斥
- 测试集和训练集独立同分布
留出法
留出法:将已知数据集分为两个互斥的部分,其中一部分用来训练模型,另一部分用来测试模型,评估其误差,作为泛化误差的估计。
- 两个数据集的划分要尽可能保持数据分布一致性,避免因数据划分过程引入人为的偏差
- 数据分割存在多种形式会导致不同的训练集、测试集划分,单独留出法结果往往存在偶然性,其稳定性较差,通常会进行若干次随机划分、重复实验评估取平均值作为评估结果;
- 数据集拆分成两部分,每部分的规模设置会影响评估结果,训练、测试的比例通常为7:3(7训、3测,适用于大部分场景应用)、8:2等
交叉验证法
交叉验证法:将数据集划分k个大小相似的互斥的数据子集,子集数据尽可能保证数据分布的一致性(分层采样),每次从中选取一个数据集作为测试集,其余用作训练集,可以进行k次训练和测试,得到评估均值。该验证方法也称作k折交叉验证。使用不同的划分,重复p次,称为p次k折交叉验证。
留一法(k折交叉验证的特殊形式)
留一法:将数据集分成两个,其中一个数据集记录条数为1,作为测试集使用,其余记录作为训练集训练模型。训练出的模型和使用全部数据集训练得到的模型接近,其评估结果比较准确。缺点是当数据集较大时,训练册数和计算规模较大。
自助法
自助法:是一种产生样本的抽样方法,其实质是有放回的随机抽样。即从已知数据集中随机抽取一条记录,然后将该记录放入测试集同时放回原数据集,继续下一次抽样,直到测试集中的数据条数满足要求。
几种方法的适用场景
- 留出法:
- 优点
- 实现简单、方便,在一定程度上能评估泛化误差
- 测试集和训练集分开(测试集和训练集互斥,天然缓解过拟合),缓和了过拟合
- 缺点:
- 一次划分,评估结果偶然性大
- 数据拆分后,用于训练、测试的数据更少了
- 优点
- 交叉验证法(留一法):
- 优点:
- k可以根据实际情况设置,充分利用所有样本
- 多次划分,评估结果相对稳定
- 缺点:
- 计算比较繁琐,需要进行k次训练和评估
- 优点:
- 自助法:
- 优点:
- 样本量较小时可以通过自助法产生多个自主样本集,且有约36.8%的测试样本
- 对于总体的理论分布没有要求
- 缺点:
- 无放回抽样引入了额外的偏差
- 优点:
几种方法的选择
- 已知数据集数量充足时,通常采用留出法或k折交叉验证法
- 对于已知数据集较小且难以有效划分训练集/测试集时,采用自助法
- 对于已知数据集较小且可以有效划分训练集/测试集时,采用留一法
性能度量
性能度量:评价模型泛化能力的标准。对于不同的模型,有不同的评估标准,不同的评估标准将导致不同的评估结果。模型的好坏是相对的,取决于对于当前任务需求的完成情况。
回归模型的性能度量同城选用均方误差。
模型比较
选择合适的评估方法和性能度量,计算出性能度量后直接比较。
存在一下问题:
-
- 模型评估得到的是测试集上的性能,并非严格意义上的泛化性能,两者并不相同
- 测试集上的性能与样本选取关系很大,不同的划分,测试结果会不同,比较缺乏稳定性
- 很多模型本身有随机性,即使参数和数据集相同,其运行结果也存在差异
假设检验
统计假设检验:事先对中体的参数或分布做一个假设,然后基于已有的样本数据去判断这个假设是否合理。
-
基本思想:
- 从样本推断整体
- 通过反正法推断假设是否成立
- 小概率事件在一次试验中基本不会发生
- 不轻易拒绝原假设
- 通过显著性水平定义小概率事件不可发生的概率
- 全程命题只能被否定而不能被证明
-
假设检验步骤
-
建立假设
根据具体问题建立假设
- 原假设:搜集证据希望推翻的假设
- 备择假设:搜集证据予以支持的假设
-
确定检验水准
检验水准,又称显著性水平,指原假设正确,但最终被拒绝的概率
- 原假设为真,被拒绝,称作第一类错误
- 原假设为假,被接收,称作第二类错误
-
构建统计量
根据资料类型、研究设计方案和统计推断的目的,选用适当检验方法和计算相应的统计量。
-
计算p值
关于p值:
- 用来判断假设验证结果的参数,
- 在原假设为真的前提下出现观察样本以及更极端情况的概率
- 如果p值很小,说明原假设出现的概率小,应该拒绝,p值越小,拒绝原假设的理由约充分。
-
得到结论
-
偏差与方差
偏差:描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,即在样本上拟合的好不好
方差:模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性
噪声:为真实标记与数据几种的实际标记间的偏差。通常由多种因素综合影响造成,不可去除。
偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本省的难度。
- 偏差体现的是拟合程度优劣,通常模型越复杂,偏差越小;当偏差较大时,即预期输出和实际结果偏离较大,称为欠拟合
- 方差体现的是模型的稳定程度。同城模型越简单,方差越小;当方差较大时,模型不稳定,即对一些新数据的预测不稳定。偏差小,方差大的情况即为过拟合。