模型评估与选择

最新推荐文章于 2024-08-21 18:14:50 发布

qq_39272695

最新推荐文章于 2024-08-21 18:14:50 发布

阅读量67

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_39272695/article/details/120246505

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

来源于西瓜书-周志华

经验误差与过拟合

$错误率：分类错误的样本数占总样本数的比例，E=\frac{a}{m}，即在m个样$ $本中有 a 个样本分类错误$
$精度 = 1 - 错误率$
$误差：学习器的实际输出与真实输出之间的差异，学习器在训练样本$ $上的误差叫训练误差或者经验误差，在新样本上的误差叫泛化误差$
$泛化 : 模型对新样本的适应能力$
$过拟合 : 学习器对训练样本进行了过度学习，产生一个经验误差很小的模型，$ $该模型对新样本的泛化能力却很弱$
$欠拟合：学习器对训练样本未进行过充分学习，生成一个经验的误差很大的模型，该$ $模型 f f 新样本的泛化能力却很弱$
7. $归一化：将不同的数据范围统一规划在一个范围内的操作$

评估方法

$针对训练数据训练出的不同模型，我们往往根据模型的泛化能力对模型进行选择$
7. $留出法 : 直接将数据集 D 划分为两个互斥的集合，其中一个集合作为训练集 S ，另$ $一个作为测试集T，即D=S\cup T, S\cap T=空集，在S上训练出模型后，用$
$T 来评估其测试误差，作为对泛化误差的估计，为了避免因数据划分过程$
$引入额外的偏差而对最终结果产生影响，采用 “ 分层采样 ” (样本中正反样例$
$个数相同)，做法：将样本中\frac{2}{3}\sim\frac{3}{4}用作训练集，$ $剩下用作测试集，使用留出法时，一般要采用若干次随机划分、重复进行$ $实验评估后取平均值作为$ $留出法的评估结果 . 例如进行 100 次随机划分，每次产生一个训练 / 测试集用$
8. $k折交叉验证:先将数据集D(D通过分层抽样获取)划分为k个大小相似的互斥子集，即D_1\cup D_2\cup…\cup D_k;D_i \cap_j=空集，每次用k-1个子集用作训练集，剩下$ $的用作测试集， k 最常用的取值是 10 ，此时称为 10 折交义验证$
在这里插入图片描述

$自助法：给定包含 m 个样本的数据集 D ，我们对它进行采样产生数据集 D^{'} : 每次随机从$
$D 中挑选一个样本，将其拷贝放入 D^{'} ，然后再将该样本放回初始数据集 D 中，$
$使得该样本在下次采样时仍有可能被采到; 这个过程重复执行 m 次后，我们就得到了包含。$
$个样本的数据集 D^{'} ，这就是自助采样的结果 . 显然， D 中有一部分样本会在 D^{'} 中多次出$
$现，而另一部分样本不出现 . 可以做一个简单的估计，样本在 m 次采样中始终不被采到的$
$概率是(1-\frac{1}{m})^m，取极限得到$
$\lim\limits_{m\rightarrow +\infty}(1-\frac{1}{m})^m=\frac{1}{e}\approx0.368$
$即通过自助采样，初始数据集D中约有36.8\%的样本未出现在采样数据集D'中。$
$于是我们可将D'用作训练集，D\setminus D'用作测试集;这样，$
$实际评估的模型与期望评估的$
$模型都使用 m 个训练样本，而我们仍有数据总量约 1 / 3 的、没在训练集中出现的样本用于$
$测试 . 这样的测试结果，亦称 “ 包外估计 ”$

性能度量

$衡量模型泛化能力的评价标准，这就是性能度量，性能度量反映了任务需求$
10. $线性回归性的能度量$
$在预测任务中，给定样例集D=\left \{(x_1,y_1),(x_1,y_1),....,(x_m,y_m)\right \}$
$E(f;D)=\frac{1}{m}\sum\limits_{i=1}^{m}(f(x_i)-y_i)^2$
$f(x_i)为学习器f根据模型预测样本i的结果，y_i为样本i的真实结果$
$E (f; D) 实质是反应了学习器预测样本的结果与真实结果之间偏离程 f f$
$更一般的，对于数据分布D，和概率密度函数p(\cdot)均方误差可描述为$
$E(f;D)=\int_{x\sim D}(f(x)-y)^2p(x)dx$

$分类任务的性能度量$

$错误率E(f;D)=\frac{1}{m}\sum\limits_{i=1}^{m}\mathbb{I}(f(x_i)\neq y_i)$
$精度acc(f;D)=\frac{1}{m}\sum\limits_{i=1}^{m}\mathbb{I}(f(x_i)=y_i)=1-E(f;D)$
$更一般的，对于数据分布D，和概率密度函数p(\cdot)错误率与精度可描述为$
$E(f;D)=\int_{x\sim D}\mathbb{I}(f(x)\neq y)p(x)dx$
$acc(f;D)=\int_{x\sim D}\mathbb{I}(f(x) =y)p(x)dx$

$查准率与查全率$

$查准率和查全率是一对矛盾的度量 . 一般来说，查准率高时，查全率往往偏低; 而查全率高时，查准率往往偏低。在很多情形下，我们可根据学习器的预测结果对样例进行排序，排在前面的是学习器认为 “ 最可能 ” 是正例的样本，排在最后的则是学习器认为 “ 最不可能 ” 是正例的样本。$
$按此顺序逐个把样本作为正例进行预测，则每次可以计算出当前的查全率、查准率 . 以查准率为纵轴、查全率为横轴作图。就得到了查准率一查全率曲线，简称 “ P - R 曲线 ” ，如下图$

$比较上述几个学习器性能的方法：$
$1 . 比较曲线下的面积 (不容易)$
$2 . 比较 “ 平衡点 ” (查全率 = 查准率)$
$3.F_1度量:$
$F_1=\frac{2*P*R}{P+R}=\frac{2*TP}{样例总数+TP-TN}$
$优化版：$
$F_1=\frac{(1+\beta^2)*P*R}{(\beta ^2*P)+R}$
$其中\beta>0度量了查全率对查准率的相对重要性$
$\beta=1时退化为标准的F_1;$
$\beta >1时查全率有更大影响;\beta <1时查准率有更大影响。$

13. $R O C 与 A U C$
$R O C 是根据任务需求的不同，任务需求对查全率和查准率的偏重，进行对预测后$
$的结果采用不同的截断点进行排序 (查准率选取排序靠前的位置进行截断) ，$
$R O C 曲线能够反映出学习器泛化性能的好坏$

$R O C 全称是 “ 受试者工作特征 ” ， R O C 曲线的纵轴是 “ 真正例率 ” ，横轴是 “ 假正例率 ”$
$TPR=\frac{TP}{TP+FN}$
$FPR=\frac{FP}{FP+TN}$
在这里插入图片描述

$AUC=\frac{1}{2}\sum\limits_{i=1}^{m-1}(x_{i+1}-x_i)(y_i+y_{i+1})(梯形面积计算公式)$
$\iota _{rank}=\frac{1}{m^++m^-}\sum\limits_{x^+\epsilon D^+}\sum\limits_{x^-\epsilon D^-}(\mathbb{I}(f(x^+)<f(x^-))+\frac{1}{2}\mathbb{I}(f(x^+)=f(x^-)))$
$= 1 - A U C$

14. $代价敏感错误率与代价曲线$
$代价：产生一次预测结果所要付出的代价，实质是预测结果与期望值之间的偏离程 f f$

比较检验

$学习器的好坏 (泛化性能的比较) 是建立在统计学的基础上$

假设检验

偏差与方差

qq_39272695

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模型评估与选择

经验误差与过拟合错误率：分类错误ff样本数占总样本数ff比例，E=am，即在m个样错误率：分类错误ff样本数占总样本数ff比例，E=\frac{a}{m}，即在m个样错误率：分类错误ff样本数占总样本数ff比例，E=ma，即在m个样本中有a个样本分类错误本中有a个样本分类错误本中有a个样本分类错误精ff=1−错误率精ff=1-错误率精ff=1−错误率误差：学习器ff实际输出与真实输出之间ff差异，学习器在训练样本误差：学习器ff实际输出与真实输出之间ff差异，学习器在训练样本误差：学习器ff实际输
复制链接

扫一扫

专栏目录