【机器学习笔记1】模型评估与线性学习

最新推荐文章于 2023-03-29 11:33:45 发布

flyf000

最新推荐文章于 2023-03-29 11:33:45 发布

阅读量726

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/flyf000/article/details/87341581

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

（先吐槽一下，csdn不输入密码的情况下，他的登录按钮就是灰色的，ctmd反人类的设计我看到那个灰按钮掉头就想走，谁知道他那个按钮不是不是有效。。。太沙雕了。导致最近学的东西都没往上放TAT虽然学的不多）

1.模型评估常用方法：

我们已经剖析了模型评估的难解之处：模型在训练集数据上的误差不能反映其在新数据集上的误差情况。为了更好地估计模型在新数据集上的错误率，我们必须使用更复杂的方法，两种常用的方法是留出法和K-fold交叉验证。

1.1 留出法

直接将数据集划分为两个互斥的集合，2/3-4/5。

划分原则：划分过程尽可能保持数据分布的一致性，反复地随机切分训练-测试数据集，对结果求平均值，以减小噪音影响。然而，在多次迭代中，每一个数据点被分配到测试数据集的概率并不一定，这将导致我们的结果存在偏差。

方法缺陷：训练集过大，更接近整个数据集，但是由于测试集较小，导致评估结果缺乏稳定性；测试集大了，偏离整个数据集，与根据数据集训练出的模型差距较大，缺乏保真性。

图片描述

1.2 k-ford交叉验证

缺点：计算量更大。K-fold交叉验证一开始就随机把数据分割成K个不相连的子集，成为folds（一般称作K折交叉验证，K的取值有5、10或者20）。每次留一份数据作为测试集，其余（k-1）份数据用于训练模型。

当每一份数据都轮转一遍之后，将预测的结果整合，并与目标变量的真实值比较来计算准确率。K-fold交叉验证的图形展示如图6所示

在K-fold方法交叉验证中K的值选的越大，误差估计的越好，但是程序运行的时间越长。

解决方法：尽可能选取K=10（或者更大）。对于训练和预测速度很快的模型，可以使用leave-one-out的教程验证方法（即K=数据样本个数）。

图片描述

2.性能度量

2.1 F1-measure

准确率和召回率是互相影响的，理想情况下肯定是做到两者都高，但是一般情况下准确率高、召回率就低，召回率低、准确率高。综合考虑查准率和查全率进而提出了 F1-measure 相当于精确率和召回率的综合评价指标：，当F1较高时则能说明试验方法比较有效。

Fβ=(（1+β²）*P*R)/((β*P）+R)为范式。值为1说明是标准f1，大于则偏重查全率，反之偏重查准率

当β=1时，F1=(2*P*R)/(P+R)，F1较大时说明性能好。

2.2 ROC曲线与AUC面积

https://blog.csdn.net/u013385925/article/details/80385873这位大哥讲的很好了

英文概念	中文概念	定义
Mean squared error	均方差	回归模型所使用的一种评价指标。
Cross-validation	交叉验证	为了更好地估计准确率，把训练数据分成2份（或者多份）独立的训练/测试数据集的方法。
K-fold cross-validation	K折交叉验证	一种交叉验证的方法，数据集被分为K份独立的子集，每次取出一份作为测试集，其余数据用来训练模型。
Confusion matrix	混淆矩阵	用于比较分类结果和实际测得值的一种矩阵。
ROC - Receiver operator characteristic	ROC	一种用于记录真阳性、假阳性、真阴性、假阴性的数值。
AUC - Area under the ROC curve	ROC曲线下面积	ROC曲线下方的面积大小。
Tuning parameter	调整参数	机器学习算法的一个内部参数，比如内核平滑回归算法的窗宽参数。
Grid search	网格搜索	优化模型参数时采用的一种暴力搜索策略。

3.比较检验

3.1 成对双边t检验

对两个分类器A和B，若k折交叉验证得到的测试错误率分别为a1,a2...和b1,b2...，可用 “成对t检验”进行比较检验。若两个分类器的性能相同，则他们使用相同的训练/测试集得到的测试错误率应相同，即a1=b1. 具体来说，对k折交叉验证产生的k对测试错误率：先对每对结果求差δ1=a1-b1；然后根据差值1-k来对“分类器A与B性能相同”这个假设做t检验，计算出差值的均值μ和方差σ2 ，以及t统计量：

因为计算得到的t统计量服从自由度为k-1的t分布，如果t值小于双边t检验在显著度α下的临界值，则认为这两个分类器的性能没有显著差别；否则可认为这两个分类器的性能有显著差别，且平均错误率较小的那个分类器的性能较优。在不同自由度v和显著度α下的临界值可通过查找t分布的临界值表得到 (没弄懂这个公式，后期学完再回来看。Friedman检验与Nemenyi后续检验老师也没讲过程只说了算法公式，参不透啊参不透，先放一放吧Orz)

t分布：首先要提一句u分布，正态分布（normal distribution）是许多统计方法的理论基础。正态分布的两个参数μ和σ决定了正态分布的位置和形态。为了应用方便，常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u，以使原来各种形态的正态分布都转换为μ=0，σ=1的标准正态分布（standard normaldistribution）,亦称u分布。根据中心极限定理，通过抽样模拟试验表明，在正态分布总体中以固定 n 抽取若干个样本时，样本均数的分布仍服从正态分布，即N（μ，σ）。所以，对样本均数的分布进行u变换，也可变换为标准正态分布N (0,1)

由于在实际工作中，往往σ(总体方差)是未知的，常用s（样本方差）作为σ的估计值，为了与u变换区别，称为t变换，统计量t 值的分布称为t分布。假设X服从标准正态分布N（0,1），Y服从（n）分布，那么Z=X/sqrt(Y/n)的分布称为自由度为n的t分布,记为 Z～t(n)。

可以看出，t分布以0为中心，左右对称的单峰分布；t分布是一簇曲线，其形态变化与n（确切地说与自由度ν）大小有关。自由度ν越小，t分布曲线越低平；自由度ν越大，t分布曲线越接近标准正态分布（u分布）曲线。

4.线性学习

对于连续值需要回归来做，可以用线性回归和广义线性回归来做；对于分类任务，他的连续属性值可以用逻辑斯蒂函数来实现拟合，对于离散属性值可把k维离散值转化为k维向量等方法处理。

5.多分类学习

多分类学习有一对一，一对多，多对多方式

一对一是从数据类中随机抽取两类，共cmn个作为要预测的正负类，通过分类器训练得到结果，把这些结果投票得到最后结果。

一对多是指把一个判为正类，其余作为负类处理，最后取预测为正值的，如果有多个正值，那就选取置信度最高的。

多对多是每次将若干个类作为正类，若干个其他类作为反类。MvM的正、反类构造必须有特殊的设计，不能随意选取。最常用的MvM技术是"纠错输出码" (Error CorrectingOutputCodes，简称 ECOC)

ECOC是将编码的思想引入类别拆分，并尽可能在解码过程中具有容错性。ECOC工作过程主要分为两步:
----编码：对N个类别做M次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集。这样一共产生M个训练集，可训练出M个分类器。
----解码：M 个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

https://blog.csdn.net/u012679707/article/details/80527994

flyf000

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习笔记1】模型评估与线性学习

（先吐槽一下，csdn不输入密码的情况下，他的登录按钮就是灰色的，ctmd反人类的设计我看到那个灰按钮掉头就想走，谁知道他那个按钮不是不是有效。。。太沙雕了。导致最近学的东西都没往上放TAT虽然学的不多） 1.模型评估常用方法：我们已经剖析了模型评估的难解之处：模型在训练集数据上的误差不能反映其在新数据集上的误差情况。为了更好地估计模型在新数据集上的错误率，我们必须使用更复杂的方法，两...
复制链接

扫一扫