西瓜+南瓜-task1 模型评估与选择

题外话:南瓜书是西瓜书公式的进一步深入。

机器学习研究什么?

对历史经验的归纳总结+预测

比如,早霞不出门晚霞行千里 ,通过历史累计“经验”预测第二天是晴天还是雨天。

此处的“经验”类似于历史数据,通过学习数据,或者训练数据,提前预判,这就是机器学习要研究的东西。

机器学习研究对象

数据集(多个样本/示例的集合)

想要判断西瓜到底是不是好瓜,需要对样本进行人为或者经验的结果判断(出现过的,没有出现过的),作为样本训练集。

比如:" ((色泽:青绿;根蒂二蜷缩;敲声=浊响),好瓜)"。此处就已经标记,被称作样例。

在这里插入图片描述
预测会根据需求变动而变动:

  • 如果预测好瓜、坏瓜这种离散类型,用分类;
  • 如果是预测西瓜成熟度,0.5,0.75,0.99等连续类型,用回归。
  • 还有二分类、多分类。

预测一般是对训练集学习

在这里插入图片描述

假设空间

在这里插入图片描述
比如:将训练集中的瓜判断正确的假设

假设空间由形如"(色泽=?)^(根蒂=?) ^ (敲声=?)"的可能取值所形成的假设组成.
在这里插入图片描述

归纳偏好

假设不止一个,该采用哪一个模型(或假设)?看设置的偏好。

每个训练样本是图中的一个点 (x y), 要学得一个与训练集一致的模型,得找到一条穿过所有训练样本点的曲线。不过这种曲线很多,只能看偏好(需求)如何设置找到最优。
在这里插入图片描述
问:哪种偏好的原则性较弱,且效果也比较好呢?
答:“奥卡姆剃刀”

若有多个假设与观察一致,则选最简单的那个,(例如曲线A更易于描述,其方程式是 = -X^2 + 6x + 1,而曲线 B则要复杂得多)

but 不绝对,因为不能脱离实际,得看你具体解决什么问题,曲线A和曲线B都有各自的优劣,A和B与之对应的训练集外的样本都有可能更相近。

模型评估与选择

经验误差与过拟合

错误率 : E= α/m :
m个样本中有α 个样本分类错误
精度=1 一错误率

误差:实际预测输出与样本的真实输出之间的差异

训练误差/经验误差:训练集上的误差
泛化误差:新样本上的误差

在实际业务中基本都会min经验误差,泛化误差在不知新样本的情况下无法min,只能尽可能找到适用于潜在样本的普遍规律。

不过也有一定的“失误”,比如把训练样本本身的特点当潜在样本的一般性质,导致过拟合,或者没有对训练样本的性质归纳好,导致欠拟合。
在这里插入图片描述

评估方法

测试集→测试误差→泛化误差的近似
测试集不能出现在训练集中

如何在数据集D中分出测试集T和训练集S,常见的方法:

  • 留出法:直接将D划分(若干次随机划分)为2个互斥的集合,一个是S 一个是T,两者相交=∅,通过S训练出模型,T评估测试误差,作为泛化误差的估计。

约2/3~ 4/5样本用于训练,剩余样本用测试
在这里插入图片描述

  • 交叉验证法

“交叉验证法” (cross alidation) 将数据 分为 个大小相似的互斥子集, = D1∪D2∪… U Dk, Di ∩ Dj = ø (í≠j) 。每个子集尽可保持数据分布的一致性,即从D通过分层采样得到→用
k-1 子集的并集作为训练集,余下作为测试集,这样就可获得K组训练/测试集,从而可进行K次训练和测试, 最终返回的是K测试结果的均值。

交叉验证法称为 k折交叉验证", k常取10 ,此时称为 10折交叉验 ,5、20也可。

在这里插入图片描述
K折交叉验证通常要随机使用不同的划分重复P次,最终的评估结果是这 折交叉验 结果的均值,10 次10 折交叉验证

温馨提示:K值取值起决定性因素,如果训练数据较小,就取大点,训练集较大,则取小点(节省时间,避免训练集合高度相似)。
如果碰到同样的数据集,但是训练出来的结果差异很大,极大可能是因为对方直接将所有当做训练集训练,并非划分了训练集和测试集。

自助法

自助采样法:从D中随机挑一个样本,进行m次又放回操作,并将挑取的样本copy到D(训练集)。

样本在m次采样中始终不被采到的概率是 (1-1/m )的m次方:

在这里插入图片描述

调参与最终模型

eg:
假定算法有3个参数,每个参数仅考虑5个候选值,这样对每一组训练/测试集就有 5^3 = 125 个模型需考察,很多强大的学习算法有大量参数需设定(这是一个技术活)。

如果已经确定了算法和参数,还应该将整个数据集D重新训练模型,用完所有m个样本。

性能度量

在这里插入图片描述

错误率与精度

在这里插入图片描述

查准率、查全率与Fl

TP+FP+TN+FN=样例总数
在这里插入图片描述
在这里插入图片描述
一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低

温馨提示:此处得跟roc和auc区别开
在这里插入图片描述
在这里插入图片描述

ROC曲线和AUC曲线

ROC 曲线的纵轴是"真正例率"TPR,横轴是"假正例率"FPR
在这里插入图片描述
在这里插入图片描述

比较检验

假设检验

比如:

在这里插入图片描述
先测得测试错误率的最大概率,再用二项检验来对泛化错误率假设检验,然后在置信度区间看测试错误率和临界值的关系。
在这里插入图片描述

在α的显著度下,假设"ε<= ε0" 不能被拒绝,即能以1- α的置信度认为,学习器的泛化错误率不大于 ε0; 否则该假设被拒绝

交叉验证t检验

欲进行有效的假设检验,测试错误率均为泛化错误率的独立采样,否则会有显著性差异。

因样本有限,一般交叉验证会采用5X2交叉验证。
在这里插入图片描述

McNemar 检验

在这里插入图片描述

Friedman 检验与 NeMenyi 后续检验

在这里插入图片描述

偏差与方差

在这里插入图片描述
偏差和方差会因为训练程度的改变而出现欠拟合、过拟合、拟合状态。跟找到多少训练数据集特征有关。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值