什么是机器学习?
“机器学习是让计算机像人类一样学习和行动的科学,通过以观察和现实世界互动的形式向他们提供数据和信息,以自主的方式改善他们的学习。”
机器学习的三要素
数据、算法、模型
机器学习研究的是从数据中通过选取合适的算法,自动的归纳逻辑或规则,并根据这个归纳的结果(模型)与新数据来进行预测。
目录
1 绪论
1.1 基本术语
算法:从数据中学得模型的具体方法
模型:算法产出的结果为模型
从数据中学得模型的过程称为“学习”或“训练”,该过程通过执行算法完成。通常情况下我们将样本数据分为训练集、测试集和验证集。训练集用于构建模型,测试集用于挑选最优模型超参的样本集合:使用验证集可以得到反向传播什么时候结束以及超参怎么设置最合理。主要目的是为了挑选在验证集上表现最好的模型。验证集用于评估该模型的泛化能力。
数据分割要保证数据之间的独立性和随机性,以防止在训练和测试过程中出现数据泄漏和过拟合的问题。
学习任务类型:分类、回归和预测
分类:预测结果是离散值
回归:预测结果是连续值
聚类:将一组物品分为若干组
根据训练数据是否拥有标记信息,学习任务可划分为两类:有监督学习和无监督学习
分类、回归是前者代表,聚类是后者代表。
1.2假设空间
归纳与演绎是科学推理的两大基本手段.
归纳是从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律。
演绎则是从一般到特殊的“特化”过程,即从基础原理推演出具体状况。
例如,在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理这是演绎;而“从样例中学习”显然是一个归纳的过程,因此亦称“归纳学习”。
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
一组数据作为训练集可以有多个假设空间,且在不同的假设空间中都有可能学得能够拟合训练集的模型,我们将所 有能够拟合训练集的模型构成的集合称为“版本空间”。
1.3 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好(对于一个新西瓜来说:让一个训练好的模型来判断它为好瓜还是坏瓜?可以根据某种特征判断它为好瓜,也可以根据另外一种特征判断它为坏瓜,归纳偏好就是看哪一个特征更为重要,从而根据比例将新西瓜进行分类)
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
- 没有免费的午餐定理(NFL定理):无论A算法多简单,B算法多复杂,他们两的期望值(平均值)是一样的,也就是说无论是繁还是简,它们的预测值相同
没有免费的午餐定理告诉我们:就算我们用奥卡姆剃刀原则来选择简单的模型,但也会在一些情况下选的模型不够较复杂的模型好
2 模型评估与选择
2.1 经验误差与过拟合
错误率 : m个样本中有a个样本分类错误,错误率E=a/m。
精度=1-错误率
误差 : 学习器的实际预测输出与样本的真实输出之间的差异。
训练误差(经验误差):是指在训练集上的误差。
泛化误差:在新样本 (测试集) 上的误差。
过拟合 :把训练样本自身特点当做所有样本具有的一般性质来学习,导致泛化能力下降。
欠拟合 : 学习能力不行,没有完全学习到训练样本的一般性质,一般通过增加训练轮数来克服。
2.2 评估方法
- 留出法——做训练集的一个划分,得到两个互斥的集合,一个作为训练集,一个作为测试集
- 交叉验证法——做训练集的一个划分,得到若干互斥的集合,轮流地将一个作为测试集,其他作为训练集
- 自助法——以每次从数据集中随机抽取一个的方式采样多次形成训练集,其余的形成测试集
留出法由于操作简单,因此最常用;交叉验证法常用于对比同一算法的不同参数配置之间的效果,以及对比不同算法之间的效果;自助法常用于集成学习产生基分类器。
2.3 性能度量
衡量模型泛化能力的评价标准。一般常用的标准有错误率、精度、查准率、查全率、F1、ROC 和 AUC。
错误率与精度常用于分类问题。
查准率 P:被学习器预测为正例的样例中有多大比例是真正例。
查全率 R:所有正例当中有多大比例被学习器预测为正例。
F1:
ROC:受试者工作特征
AUC:ROC曲线下的面积
2.4 比较检验
简单来说,从统计学的角度,取得的性能度量的值本质上仍是一个随机变量,因此并不能简单用比较大小来直接判定算法(或者模型)之 间的优劣,而需要更置信的方法来进行判定。
2.5 偏差与方差
解释学习算法泛化性能的一种重要工具。
偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画算法本身的拟合能力;方差度量了同样大小训练集变动导致的学习性能的变化,刻画数据扰动造成的影响;噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
一般来说偏差与方差是有冲突的,这称为偏差-方差窘境。
给定学习任务假定我们能控制学习算法的训练程度、则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;
随着训练程度的加深学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率;
在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合。