- 第一章 绪论
主要讲解什么是机器学习以及机器学习的相关数学符号,为后续内容做铺垫,且未涉及复杂的算法理论。
本书的撰写目的是以“过来人”的视角陪读者一起阅读西瓜书。
-
- 引言
本书以概念理解为主。算法是指从数据中学的模型的具体方法。算法产出的结果成为模型。但多数文件会将两者混用,遇到时,其具体指代根据上下文判断即可。
-
- 基本术语
样本:也称为“示例”,是关于一个事件或对象的描述。
样本空间:成表示样本的特征向量所在的空间为样本空间。
数据集:数据集通常用集合来表示。
假设此数据集中的每个样本都含有 d 个特征,则第 i 个样本的数学表示为 d 维向量:xi = (xi1; xi2; ...; xid),其中 xij 表示样本 xi 在第 j 个属性上的取值。
模型:机器学习的一般流程如下:首先收集若干样本(假设此时有 100 个),然后将其分为训练样本 (80 个)和测试样本(20 个),其中 80 个训练样本构成的集合称为“训练集”,20 个测试样本构成的集合 称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出 得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。执行以上流程时,表示我们已经默认 样本的背后是存在某种潜在的规律,我们称这种潜在的规律为“真相”或者“真实”,例如样本是一堆好西 瓜和坏西瓜时,我们默认的便是好西瓜和坏西瓜背后必然存在某种规律能将其区分开。当我们应用某个机器学习算法来学习时,产出得到的模型便是该算法所找到的它自己认为的规律,由于该规律通常并不一定
标记:对潜在规律进行描述的信息称为标记信息。
由于标记的取值类型不同,可以把机器学习任务分为两种:
- 标记取值为离散型,则称此类标记为分类。
- 标记取值为连续型,则称此类任务为回归。
根据是否有用到标记信息。可以把机器学习任务分为以下两类:
- 训练阶段有用到标记信息的,称为监督模型。
- 训练阶段没有用到标记信息的,称为无监督模型。
泛化:对未知十五的判断准确度称为泛化能力。
-
- 假设空间
假设空间是对模型可能形式的假设,不同假设空间中都有可能学的能够拟合训练集的模型,而版本空间是所有能够拟合训练集的模型的集合。
-
- 归纳偏好
不同的机器学习算法有不同的额偏好,这就叫做归纳偏好。评判算法优劣的最好方法是看模型在训练集上的测试数据。机器学习算法没有绝对的优劣,只有相对的适合。
- 第二章 模型的评估与选择
本章仍属于机器学习的基础知识部分,但在第一章相关数学符号的基础上,本章将进一步介绍机器学习相关的概念。
-
- 经验误差与过拟合
梳理本章的几个概念
错误率:E = a /m ,其中 m 为样本个数,a 为分类错误样本个数。
精度:精度 =1-错误率。
误差:学习器的实际预测输出与样本的真实输出之间的差异。
经验误差:学习器在训练集上的误差,又称为“训练误差”。
泛化误差:学习器在新样本上的误差。
过拟合是由于模型的学习能力相较于,数据来说过于强大,反过来说,欠拟合是因为模型的学习能力相对于数据来说过于低下。
-
- 评估方法
本节介绍了 3 种模型评估方法:留出法、交叉验证法、自助法。留出法由于操作简单,因此最常用; 交叉验证法常用于对比同一算法的不同参数配置之间的效果,以及对比不同算法之间的效果;自助法常用
于集成学习(详见“西瓜书”第 8 章的 8.2 节和 8.3 节)产生基分类器。留出法和自助法简单易懂,在此
不再赘述,下面举例说明交叉验证法的常用方式。
-
-
- 算法参数(超参数)与模型参数
- 验证集
- 性能度量
-