机器学习笔记 - 2 模型评估

机器学习笔记 - 2 模型评估

一、重难点概念

训练数据分层

将总数据集划分为:
训练集:用来训练模型,模型的迭代和优化
验证集:调整超参数,优化模型【用来调参】
测试集:不参与训练流程,监测模型效果
在这里插入图片描述

经验误差 VS 泛化误差

经验误差:在训练集上面的误差——对应训练集数据
泛化误差:在“未来”样本上的误差——对应测试集数据
问题:验证集是用来做什么的?——验证集用来调整超参数(模型本身是有参数的,但是训练过程中可能会训练不到,因此会产生超参数。模型的超参数就是用验证集来调整的。)

⭐混淆矩阵

在一个二分类数据集中,有两种数据:正例和负例;
在将数据集使用模型进行分类之后,结果也有两种:预测的正例和预测的负例
真实值和预测值的交叉,就产生了四种数据集合
在这里插入图片描述
召回率:recall=TP/(TP+FN) 【预测正确的正例/真正正例】
准确率:Precision=TP/(TP+FP) 【预测正确的正例/预测的正例】
精确率:accuracy=(TP+TN)/TOTAL 【预测正确的正例和负例/总的正例和负例】
F1=2recallprecision/(recall+precision)
AUC动态的混淆矩阵计算得到:
○ Y轴:真正例率 TPR=TP/(TP+FN)
○ X轴:假正例率 FPR=FP/(TN+FP)
得到坐标(x,y),画出曲线,这个曲线叫ROC曲线,这个曲线下方的面积,叫做AUC。

偏差和方差

偏差 Bias:期望值和实际值的差值
方差 Variance:模型预测值的方差
实际的误差 Err(x)=Bias^2+Variance+Irreducible Error
方差与偏差经典靶心图

过拟合与欠拟合

模型越复杂,模型拟合能力越强,偏差逐渐变小,容易过拟合;
模型越复杂,可能性就会越多,方差越大。

本节要求:深入理解——
过拟合与欠拟合
复杂模型与简单模型
经验误差与泛化误差

二、拓展内容

ROC曲线的由来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值