南瓜书(机器学习) - Task01 - 学习笔记

背景:正所谓“生化环材”四大天坑,机械土木两大护法。本人是机械专业的研一学生,因为在帮导师搬砖的过程中需要涉及Machine Learning以及Deep Learning方面,因而准备系统学习一下,也感谢DataWhale提供的教学视频与平台。(背景介绍完毕)

打卡任务:Task01是掌握西瓜书的第一章和第二章

学习笔记:

1. 西瓜书的第一章是绪论部分,主要是引入机器学习的概念以及今后需要涉及到一些基本术语:

数据集:一般将一组记录的集合称为一个“数据集”;

属性(特征):反应事件或对象在某方面的表现或性质的事项;

样本空间(属性空间、输入空间):属性张成的空间;

学习(训练):从数据中学得模型的过程,该过程通过执行某个学习算法来完成;

1.1 训练过程中的一些基本术语

训练数据:训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样本,训练样本组成的集合称为训练集(training set);

样例:拥有标记信息的示例;

1.2 分类与回归

分类、回归:根据我们欲预测的值是离散值和连续组,可将学习任务分为分类(离散值)和回归(连续值);

二分类和多分类:根据涉及的类别数目可分为二分类和多分类,对只设计两个类别的“二分类”任务,通常称其中一个类为正类,另一个类为反类。涉及多个类别时,则称为多分类任务;

1.3 测试

测试:学得模型后,使用其进行预测的过程称为测试,被预测的样本称为测试样本;

1.4 聚类

聚类:将训练集分成若干组,每组称为一个簇,这些自动形成的簇可能对应一些潜在的概念划分;

1.5 监督学习与无监督学习

监督学习:训练数据有标记信息;

无监督学习:训练数据无标记信息;

分类和回归是监督学习的代表,聚类是无监督学习的代表;

值得注意的是,学得模型是要有较好的泛化能力(泛化:即学得模型适用于新样本的能力),具有强泛化能力的模型能很好地适用于整个样本空间。

1.6 归纳偏好

在对比不用模型的泛化能力时,大致要对奥卡姆剃刀原则和“没有免费的午餐”定理有一定的理解。

“没有免费的午餐”定理:即总误差与学习算法是无关的,但需要透过现象看清本质,即空泛地谈论“什么学习算法更好”并没有意义,需要具体问题具体分析。

2. 西瓜书的第二章是关于模型的评估与选择

这章重点需要了解经验误差与过拟合、主要的几种评估方法

2.1 经验误差与过拟合

错误率、精度:通常把分类错误的样本数占样本总数的比例称为“错误率”,相应的,精度=1 - 错误率;

误差:训练误差、泛化误差

训练误差:学习器(模型)在训练集上的误差称为训练误差

泛化误差:学习器在新样本上的误差

过拟合和欠拟合:西瓜书上以树叶训练样本为例来阐述过拟合和欠拟合,总的来说即为,当学习器把训练样本学习的太好的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样会导致泛化能力下降,这种现象在机器学习中被称为“过拟合(overfitting)”,欠拟合是相对于过拟合而言的,指的是训练样本的一般性质尚未学好。欠拟合一般是比较容易克服的,但是过拟合比较麻烦,而且无法彻底避免,只能减轻其带来的风险。

2.2 评估方法

为了测试模型的泛化能力,需要对数据集D记性适当的处理,从中产生训练集S和测试集T,几种常见的方法包括留出法、交叉验证法、自助法。

留出法:常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试

交叉验证法:大体如下图所示:

自助法:自助法产生的数据集改变了初试数据集的分布,从而引入了估计偏差。在初始数据量足够时,留出法和交叉验证法更常用一些。

2.3 性能度量

分类任务中常用的性能度量主要有:(错误率与精度)、(查准率、查全率与F1)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值