机器学习笔记1

本文介绍了机器学习中的过拟合与欠拟合概念,以及评估模型的三种方法:留出法、交叉验证和自助法。详细讨论了性能度量,如查准率、查全率、F1值和ROC曲线。同时,文章涵盖了比较学习器性能的统计假设检验,包括交叉验证t检验、McNemar检验、Friedman检验和Nemenyi后续检验,强调了偏差与方差在理解模型泛化性能中的作用。
摘要由CSDN通过智能技术生成

所谓机器学习就是记住 训练样本 ,也就是 死记硬背
机器学习有些基本术语需要我记住

数据集(data set)  示例(instance) 样本(sample) 属性(attribute) 特征(feature) 属性值(attribute value)  属性空间(attribute space) 样本空间(sample space) 特征向量(feature vector) 维数(dimensionality) 学习(learing) 训练(training) 训练数据(training data) 训练样本(training sample) 训练集(training set) 测试(testing)
假设(hypothesis) 真实(ground-truth) 学习器(learner) 预测(prediction) 样例(example) 标记空间(label space) 分类 (classification) 回归(regression) 二分类(binary classification) 正类(positive class) 反类(negative class) 多分类(multi-class classification) 
聚类(cluster) 泛华(generaliaztion) 分布(distribution) 独立分布(independent and identically distributed )iid 归纳(induction) 演绎(deduction) 特化(specialization) 归纳学习(induction learning) 概念(concept)匹配(fit) 版本空间(version space) 归纳配好 (inductive bias)
 监督学习(supervised learning) 无监督学习(unsupervised learing) 
 查准率(precision) 查全率(recall) 真正例(true positive) 假正例(false posivitive) 真反例(true negative) 假反例(false negative) 混淆矩阵(confusion matrix) 真正例率(true positive rate) 假正例率(false positive rate) 损失(loss) 非均等代价(unequal cost) 代价矩阵(costmatrix) 代价敏感(cost-sensitive) 代价曲线(cost curve) 总体代价(total cost)

学习任务分为两大类 监督学习无监督学习;分类和递归是监督学习的代表,聚类是非监督学习的代表.

过拟合overfitting&欠拟合underfitting

对比

评估方法

留出法 hold-out

直接将数据集D划分为两个互斥集合 A B 使 D = A ∪ B ; A∩B=∅; 在A上训练出模型后再用B来评估测试误差作为泛华误差的估计.

交叉验证发 cross validation

先将数据集D划分为K个大小相似的互斥子集合, 使 D = Da ∪ Db∪Dc∪Dd∪…∪Dk ; Da∩Dk = ∅(a≠k);
每个子集的数据分布尽量保持一致,每次用K-1个子集的并集作为训练集,剩下的一个子集作为测试集,既可以进行k次的训练和测试,返回k个测试结果的均值,所以通常吧交叉验证法称为k折交叉验证法(k-fold cross validation),k常用取值为10,也叫10着交叉验证,还有其他的k值 5,10,20等.
示意图

自助法 bootstrapping

给定包含m个样本的数据集D,对它进行采样产生数据集D’ ,重复m次后就会得到m个样本集D’,通过自助采样,初始数据集D中越有36.8%的样本不会出现在D’中,这样就可以把D’最为训练集,D\D’作为测试集 这样的测试结果也叫包外估计 (out-of-bagestimate)

自助法主要在数据集较小,难以划分训练/测试集时很有用.在数据量足够时,留出法和交叉验证法更常用
调参数与最终模型
性能度量 performance measure

性能度量反应了任务需求,对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果.

回归任务最常用的性能度量是 均方误差 mean squared error

查准率 查全率 和F1

以信息检索为例,逐条向用户反馈其可能感兴趣的信息,即可计算出查全率 查准率
在这里插入图片描述在一些应用中 对查准率和查全率的重视程度会有所不同,如商品推荐系统中,要金科的少打扰用户,更希望推荐的内容是用户感兴趣的,这时查准率更加重要;在逃犯洗洗检索系统中,希望尽可能少漏掉逃犯,查全率更重要,所以 F1的一般形势–Fβ,能表达出查准率/查全率的不同偏好
在这里插入图片描述
F1是基于查准率与查全率的调和评价
Fβ是加权调和平均
β>1时查全率影响更大 β<1时 查准率影响更大

在n个二分类混淆矩阵上综合考察查准率和查全率

  • 一种方法是先计算各个混淆矩阵上的查准率和查全率,在计算平均值,就可以求得宏查准率(marco-P) 宏查全率(marco-R) 和宏F1(marco-F1)

  • 还有一种是先将各个混淆矩阵的元素进行平均 得到TP FP TN FN的平均值再基于这些平均值计算出微查准率(micro-P) 微查全率(micro-R)和微F1(micro-F1)

ROC 和 AUC
 	ROC 曲线纵轴是TPR 横轴是FPR
 	AUC 是ROC曲线下的面积;当两个ROC曲线发生交叉难以断言优劣拾,使用AUC判断

为权衡不同类型的错误造成的不同损失,可以未错误赋予非均等代价(unequal cost)
所谓的规范化就是归一化 常见范围是[0,1]

比较检验

比较学习器性能可以使用**统计假设检验(hypothesis test)**进行比较

假设检验

假设色对泛化错误率分布的某种判断或猜想,如ε=ε0 ,测试中可以获得测试错误率ε’,虽然不能得到泛化错误率,但二者接近的可能性比较大,相差远的可能性比较小,因此,可以预估出泛化的错误率分布.
下面表达式了在包含m个样本的测试集上泛化错误为ε的学习器被测的测试错误率为ε’的概率:
在这里插入图片描述

交叉验证t检验

基本思路: 如果两个学习器的性能相同,那么他们使用相同的训练/测试集测试到的错误率应该相同,eA =eB
先对k折交叉验证的测试率对比求差 △ = eA-eB; 根据学习性能相同,差值均值应该为0;可以根据差值来对学习性能相同这个假设进行t校验,计算出均值 μ和方差 σ ,在显著度α下,如果变量小鱼临界值 t α/2,k-1(自由度为k-1的t分步上尾部累计分步为α/2的临界值),假设就不成立,那么两个学习器就有显著的新能差别,而且错误率比较小的那个性能优先
在这里插入图片描述
进行交叉验证时会因为训练集有一定程度的重叠,使得错误率不独立,导致假设过高的概率,可以使用5x2交叉验证 也就是做5次2折交叉验证,为了缓解测试错误的非独立小,仅计算第一次2折的的结果的平均值 μ,但对每次2折的结果计算方差 σ,变量:
在这里插入图片描述
当α为0.05时为2.5706,当α为0.1时为2.0150

McNemar检验

使用留出法计算错误率,当假设两个学习器性能相同,可以计算变量

在这里插入图片描述
给定显著的α时,当变量小于临界值拾,假设成立,反之假设不成立,且平均错误率小的性能好.自由度为1x检验临界值α=0.05时为3.8415,α=0.1时为2.7055

Friedman检验和Nemenyi后续检验

前面的比较都是在一个数据集上比较2个算法性能,但很多时候,都是在一组数据集上比较多个算法,这个时候就可以使用基于算法排序的Friedman检验
如下图算法排序表:
在这里插入图片描述
使用Friedman检验判断算法性能是否相同,如果相同,则平均值也相同.变量公式为:
在这里插入图片描述
下表是一些F的常用临界值
在这里插入图片描述当假设不成立后就需要进行后续检验(post-hoc test)来进一步区分各个算法,常用的有Nemenyi后续检验Nemenyi检验计算出平均值差别的临界值域
在这里插入图片描述
α=0.05和0.1是常用的q当两个平均值超出临界值域CD,就以相应的置信度拒绝假设.下表是常用的值.
在这里插入图片描述

偏差与方差

是解释学习算法的泛化性能的一种重要工具

使用样本数相同的不同训练集产生的方差为

在这里插入图片描述噪声为
在这里插入图片描述偏差为
在这里插入图片描述对算法的期望泛化误差进行分解的到公式
在这里插入图片描述
有公式可以看出,泛化误差可以分解为偏差,方差与噪声的和
偏差:度量了学习算法的期望预测与真实结果的偏离成都,也就是说刻画了学习算法本身的拟合能力.
方差:度量了同样大小的训练变动导致的学习性能变化,也就是刻画了数据扰动造成的影响.
噪声:学习算法到达的期望泛华误差下界,也就是刻画了学习问题本身的难度
所以**泛化性能学习算法的能力,数据的充分性以及学习任务本身的难度决定的.**要取得好的泛化性能,就需要偏差使比较小,也就是能够充分拟合数据并且使方差比较小,使数据扰动产生的影响小.
本章参考答案

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值