一、绪论
出处:
Datawhale吃瓜教程(https://www.bilibili.com/video/BV1Mh411e7VU)
案例:
水果摊旁,挑个根蒂蜷缩,敲起来声音浊响的青绿西瓜。期待是皮薄后瓤甜的瓜
1.1 引言
机器学习
研究如何通过计算的手段,利用经验来改善系统自身的性能。
- 经验以数据形式存在
学习算法
在计算机上从数据中产生模型的算法
模型
泛指从数据中学到的结果
机器学习分类
根据训练数据是否拥有标记信息
监督学习(supervised learning)
:分类、回归非监督学习(unsupervised learning)
:聚类
1.2 基本术语
数据
数据集(data set)
:记录的集合样本(sample)/示例(instance)
:单条记录【一个示例可以称为一个"特征向量(feature vector)"】属性(attribute)/特征(feature)
:反映事件或对象在某方面的表现或性质的事项,例如:色泽、根蒂、敲声属性值
:属性上的取值维度(dimensionality)
:单个样本所包含的属性个数
学习
通过对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} { (x1,y1),(x2,y2),...,(xm,ym)}进行学习,建立一个从输入空间 X \mathcal{X} X到输出空间 Y \mathcal{Y} Y的映射 f : X → Y f : \mathcal{X} \rightarrow \mathcal{Y} f:X→Y
-
学习/训练
:从数据中学得模型的过程 -
训练数据(training data)
:训练过程中使用的数据 -
训练样本
-
训练集
:训练样本的集合 -
学习器
:模型 -
样例(example)
:拥有标记信息【有结果】的示例 -
分类(classification)
:预测的结果是离散值。【好瓜、坏瓜】二分类(binary classification)
:只涉及两个分类。 Y = { − 1 , + 1 } \mathcal{Y}=\{-1,+1\} Y={ −1,+1}或 { 0 , 1 } \{0,1\} { 0,1}多分类(multi-class classificaiton)
: ∣ Y ∣ > 2 |\mathcal{Y}|>2 ∣Y∣>2
-
回归(regression)
:预测的结果是连续的。 Y = R \mathcal{Y}=\mathbb{R} Y=R
测试
测试(testing)
:学到模型后,使用其进行预测的过程称为“测试”测试样本(testing sample)
:被预测的样本验证集(validation set)
:评估测试的数据集泛化(generalization)能力
:模型在新样本的能力
1.3 假设空间
归纳(induction)
- 从特殊到一般的泛化过程
- 从具体的事实归纳出一般性规律
演绎(deduction)
- 从一般到特殊的“特化(specialization)”过程,从基础原理推演出具体情况
版本空间(version space)
与训练集一直的“假设集合”
【模型都有归纳偏好】
二、模型评估与选择
2.1 经验误差与过拟合
错误率(error rate):分类错误的样本数a占样本总数m的比例
E = a m E = \frac{a}{m} E=ma
精度(accuracy): 1 − E 1-E 1−E
误差(error):模型的实际预测输出与样本的真实输出之间的差异
训练误差(training error)/经验误差(empirical error)
:模型在训练集上的误差泛化误差(generalization error)
:在新样本上的误差
【我们希望的是泛化误差最小化,但是在新样本不确定的情况下,我们努力使经验误差最小化】
过拟合(overfitting)
:经验误差很小,但泛化误差很大(将训练样本自身的性质作为了一般性质)。过拟合只能缓解欠拟合(underfitting)
:经验误差很大(对训练样本的一般性质尚未学好)
2.2 评估方法
我们通过实验测试来对学习器的泛化误差进行评估进而选择合适的模型,因此需要一个测试集(testing set)来测试学习器对新样本的判别能力,将测试集上的测试误差作为泛化误差的近似。
假设测试样本也是从样本真实分布中独立同分布采样而得。一般测试集尽可能与训练集互斥(测试样本尽量不再训练集中出现)
当我们只有一个包含m个样例得数据集D,既要训练也要测试,此时需要对D进行适当得处理,从中产生出训练集S和测试集T