【机器学习笔记1】模型评估与线性学习

(先吐槽一下,csdn不输入密码的情况下,他的登录按钮就是灰色的,ctmd反人类的设计我看到那个灰按钮掉头就想走,谁知道他那个按钮不是不是有效。。。太沙雕了。导致最近学的东西都没往上放TAT虽然学的不多)

 

1.模型评估常用方法:

我们已经剖析了模型评估的难解之处:模型在训练集数据上的误差不能反映其在新数据集上的误差情况。为了更好地估计模型在新数据集上的错误率,我们必须使用更复杂的方法,两种常用的方法是留出法和K-fold交叉验证。

1.1 留出法

直接将数据集划分为两个互斥的集合,2/3-4/5。

划分原则:划分过程尽可能保持数据分布的一致性,反复地随机切分训练-测试数据集,对结果求平均值,以减小噪音影响。然而,在多次迭代中,每一个数据点被分配到测试数据集的概率并不一定,这将导致我们的结果存在偏差。

方法缺陷:训练集过大,更接近整个数据集,但是由于测试集较小,导致评估结果缺乏稳定性;测试集大了,偏离整个数据集,与根据数据集训练出的模型差距较大,缺乏保真性。

图片描述

1.2 k-ford交叉验证

缺点:计算量更大。K-fold交叉验证一开始就随机把数据分割成K个不相连的子集,成为folds(一般称作K折交叉验证,K的取值有5、10或者20)。每次留一份数据作为测试集,其余(k-1)份数据用于训练模型。

当每一份数据都轮转一遍之后,将预测的结果整合,并与目标变量的真实值比较来计算准确率。K-fold交叉验证的图形展示如图6所示

在K-fold方法交叉验证中K的值选的越大,误差估计的越好,但是程序运行的时间越长。

解决方法:尽可能选取K=10(或者更大)。对于训练和预测速度很快的模型,可以使用leave-one-out的教程验证方法(即K=数据样本个数)。

图片描述

2.性能度量

2.1  F1-measure

准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高。综合考虑查准率和查全率   进而提出了   F1-measure   相当于精确率和召回率的综合评价指标:,当F1较高时则能说明试验方法比较有效。

Fβ=((1+β²)*P*R)/((β*P)+R)为范式。值为1说明是标准f1,大于则偏重查全率,反之偏重查准率

当β=1时,F1=(2*P*R)/(P+R),F1较大时说明性能好。

2.2 ROC曲线与AUC面积

https://blog.csdn.net/u013385925/article/details/80385873这位大哥讲的很好了

英文概念中文概念定义
Mean squared error均方差回归模型所使用的一种评价指标。
Cross-validation交叉验证为了更好地估计准确率,把训练数据分成2份(或者多份)独立的训练/测试数据集的方法。
K-fold cross-validationK折交叉验证一种交叉验证的方法,数据集被分为K份独立的子集,每次取出一份作为测试集,其余数据用来训练模型。
Confusion matrix混淆矩阵用于比较分类结果和实际测得值的一种矩阵。
ROC - Receiver operator characteristicROC一种用于记录真阳性、假阳性、真阴性、假阴性的数值。
AUC - Area under the ROC curveROC曲线下面积ROC曲线下方的面积大小。
Tuning parameter调整参数机器学习算法的一个内部参数,比如内核平滑回归算法的窗宽参数。
Grid search网格搜索优化模型参数时采用的一种暴力搜索策略。

 

3.比较检验

3.1 成对双边t检验

对两个分类器A和B,若k折交叉验证得到的测试错误率分别 为a1,a2...和b1,b2...,可用 “成对t检验”进行比较检验。 若两个分类器的性能相同,则他们使用相同的训练/测试集得到的测试错误率应相同,即a1=b1.  具体来说,对k折交叉验证产生的k对测试错误率:先对每对 结果求差δ1=a1-b1;然后根据差值1-k来对“分类 器A与B性能相同”这个假设做t检验,计算出差值的均值μ和 方差σ2 ,以及t统计量:   

因为计算得到的t统计量服从自由度为k-1的t分布,如果t值小于双边t检验在显著度α下的临界值,则认为这两个分类器的性能没有显著差别;否则可认为这两个分类器的性能有显著 差别,且平均错误率较小的那个分类器的性能较优。  在不同自由度v和显著度α下的临界值可通过查找t分布的临界 值表得到 (没弄懂这个公式,后期学完再回来看。Friedman检验与Nemenyi后续检验老师也没讲过程只说了算法公式,参不透啊参不透,先放一放吧Orz)

t分布:首先要提一句u分布,正态分布(normal distribution)是许多统计方法的理论基础。正态分布的两个参数μ和σ决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)

       由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。假设X服从标准正态分布N(0,1),Y服从(n)分布,那么Z=X/sqrt(Y/n)的分布称为自由度为n的t分布,记为 Z~t(n)。

5.png

      可以看出,t分布以0为中心,左右对称的单峰分布;t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。

4.线性学习

对于连续值需要回归来做,可以用线性回归和广义线性回归来做;对于分类任务,他的连续属性值可以用逻辑斯蒂函数来实现拟合,对于离散属性值可把k维离散值转化为k维向量等方法处理。

5.多分类学习

多分类学习有一对一,一对多,多对多方式

一对一是从数据类中随机抽取两类,共cmn个作为要预测的正负类,通过分类器训练得到结果,把这些结果投票得到最后结果。

一对多是指把一个判为正类,其余作为负类处理,最后取预测为正值的,如果有多个正值,那就选取置信度最高的。

多对多是每次将若干个类作为正类,若干个其他类作为反类。MvM的正、反类构造必须有特殊的设计,不能随意选取。最常用的MvM技术是"纠错输出码" (Error CorrectingOutputCodes,简称 ECOC)

ECOC是将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。ECOC工作过程主要分为两步:
        ----编码:对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集。这样一共产生M个训练集,可训练出M个分类器。
        ----解码:M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。

 https://blog.csdn.net/u012679707/article/details/80527994

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值