一、假设空间和版本空间
数据背后的规律即为模型,一般情况下用函数表示。假设空间是指根据数据对模型作出的一种假设。根据对数据的分析不同,假设空间可以有若干种。假设空间中,所有能够拟合训练集的模型构成的集合为版本空间。假设空间包含版本空间。
二、基本术语
算法:算法是指从数据中学得模型的具体方法。个人理解就是算法是用来解决问题的东西。
模型:算法产出的结果称为模型。个人理解就是模型就是由算法解出来对问题的可能解。
样本:样本也叫示例,是关于一个事件或对象的描述,用向量表示其中向量的各个维度称为特征或属性。字面意思,不难理解。
标记:机器学习的本质就是在学习样本在某方面的表现是否存在潜在的规律,我们称该方面的信息为标记。个人理解就是样本中各种特征类似于函数的自变量,而标记类似于函数的因变量。标记也可看作样本的一部分,一个完整的样本通常表示为。
样本空间:样本空间也叫输入空间或属性空间,表示样本的特征向量所在空间,用表示。字面意思,不难理解。
标记空间:标记空间也叫输出空间,表示标记所在空间,用表示。字面意思,不难理解。
分类、回归:机器学习任务分为两类:当标记取值为离散型时,称此类任务为分类;当标记取值为连续型时,称此类任务为回归。当分类的类别只有两个时称此类任务为二分类,称其中一个为正类,另一个为负类或反类;当分类的类别超过两个时称此类任务为多分类。字面意思,不难理解。
机器学习算法最终学得的模型都可以抽象为以样本为自变量,标记为因变量的函数,即一个从输出空间到输出空间的映射。
机器学习流程:
1.收集若干样本;
2.将样本分为训练样本和测试样本,训练样本构成的集合为训练集,测试样本构成的集合为测试集;
3.选用某个机器学习算法,让其在训练集上学习;
4.产出模型;
5.用测试集测试模型的效果。其中样本潜在的规律称为真相或真实,算法得到的规律成为假设。
泛化:对未知事物判断的能力为泛化能力。字面意思,不难理解。
分布:此处的分布即为概率分布。通常假设一个样本空间服从一个未知分布,收集到的每个样本都是独立地从该分布中得到的,即独立同分布。概率论学得比较好,该定义虽然抽象,但能够理解。
以上术语的具体定义出自https://www.bilibili.com/video/BV1Mh411e7VU?p=2&vd_source=bf244e193683634d74ec4694f6a67393
三、归纳偏好
不同的机器算法有不同的偏好,称为归纳偏好。
四、数据决定模型的上限,而算法则是让模型无限逼近上限
数据决定模型的上限:数据量角度,数据越多,模型效果越好,那么算出来的结果越准确;特征工程角度,特征数字越合理,特征收集越全,模型效果越好,那么算出来的结果也会越准确。
算法让模型无限逼近上限:数据准备充分的情况下,不同算法得到模型不同。算法越合适,效果越好,越能逼近真相。
五、经验误差与过拟合
分类错误的样本占样本总数的比例称为错误率,而精度就是1减错误率。学习器预测输出与样本真实输出的差异称为误差,在训练集上叫训练误差或经验误差,在新样本上叫泛化误差。
过拟合指学习能力过高,将训练样本本身的特点也当作一般性质导致泛化性下降。欠拟合刚好相反,学习能力过低,一般性质没找全导致泛化性下降。举个例子,判断一个动物是否为鸡,训练集里的是各种五颜六色的鸡。欠拟合下,学习器认为带翅膀的都是鸡,误认为鸭子是鸡;过拟合下,学习器认为有颜色的才是鸡,误认为白羽鸡不是鸡。
六、评估方法
我们可以通过实验测试来对学习器的泛化误差进行评估进而做出选择,需使用一个测试集测试学习器对新样本的判别能力,以测试集上的测试误差作为泛化误差的近似。
测试集选取和模型评估方法有留出法、交叉验证法、自助法、调参等。
留出法:留出法是将数据集分为两部分,一部分当训练集用于训练,另一部分当测试集用于测试。注意训练集与测试集的划分要保持数据分布的一致性,同时需要多次划分重复评估取平均值。
交叉验证法:交叉验证法是将数据集划分为若干个互斥子集,子集保持数据分布的一致性。每个子集各充当一次测试、其他充当训练集进行若干次评估,然后取平均值。
自助法:自助法是经过多次随机采样(可重复采样)后采过样的样本组成训练集,未采过样的样本组成测试集。
调参:调参是对适用算法的选择的同时对算法参数的设定和调整。
七、性能度量
度量学习器性能即为性能度量。
在预测任务中,给定样例集,是示例的真实标记。评估学习器的性能,就是比较预测结果和真实标记。
回归任务用方差来进行性能分析,方差公式如下:
或
(为概率密度函数)
该方差等同于概率论中方差。
错误率和精度也可以用于性能分析。错误率公式如下:
或
精度公式很简单,就是。
对于二分类,查准率、查全率也可进行性能度量。对、、、进行如下定义:
:真正例,预测结果和真实情况都为正例;
:假正例,预测结果为正例,真实情况为反例;
:真反例,预测结果和真实情况都为反例;
:假反例,预测结果为反例,真实情况为正例。
查准率、查全率定义如下:
一般情况下,查准率高查全率就低;查全率高查准率就低。可以通过画图找到的平衡点。平衡点越高,学习器越好。
相比平衡点,更常用。公式如下:
若对查准率或查全率有所侧重,公式变化为:
侧重查全率,侧重查准率。
若在多个混淆矩阵综合考察查准率和查全率,有两种方法:
1.先计算各个矩阵查准率和查全率,计算平均值得到宏查准率和宏查全率,进而得出宏。公式如下:
2.先对各个矩阵的对应元素取平均值,得到、、、,计算出微查准率和微查全率,进而求出微。公式如下:
以上公式出自周志华老师的《机器学习》。