南瓜书第一章&第二章读书笔记
第一章绪论
第一章是入门,简单介绍了一下机器学习的术语和发展背景
-
较为陌生的术语及其含义:
泛化:学得模型适用于新样本的能力 学习任务分为: 1.监督学习(分类,回归):训练数据拥有标记信息 2.无监督学习(聚类):训练数据无标记信息 分类任务:预测的是离散值 回归任务:预测的是连续值 聚类:将训练集中的样本分成若干组,每组称为一“簇” 归纳与演绎: 1.归纳:从样例中学习 2.演绎:在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好 奥卡姆剃刀原则:若有多个假设与观察一致,选最简单的那个
-
发展背景:
1950年图灵测试就提出机器学习的可能二十世纪五十年代初已有相关研究,中后期基于神经网络的”连接主义“学习开始出现
二十世纪六七十年代,基于逻辑表示的”符号主义“学习技术发展
二十世纪八十年代,机器学习成为一个独立的学科领域,各种机器学习技术百花齐放。
这时“从样例中学习”的一大主流是符号主义学习。二十世纪九十年代中期之前,“从样例中学习”的另一主流是基于神经网络的连接主义学习;九十年代中期,“统计学习”成为主流
二十一世纪初,“深度学习”成为热潮
-
应用现状
机器学习在各种领域都得到广泛应用,与普通人的生活密切相关,甚至影响到人类政治。它也可以让人类提高自我认识,不仅在科学上发挥作用,也在哲学上有很大意义。
第二章——模型评估与选择
-
经验误差与过拟合
错误率:通常为分类错误的样本数占样本总数的比例
精度:1-错误率误差:学习器的实际预测输出与样本真实输出之间的差异
训练误差(经验误差):学习器在训练集上的误差
泛化误差:学习器在新样本上的误差过拟合:学习器把训练样本觉得”太好“了,很可能把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降
与之相对是欠拟合,指对训练样本的一般性质尚未学好。
欠拟合容易克服,过拟合则很麻烦,是机器学习的关键障碍。 -
评估方法
目的是通过实验测试对学习器的泛化误差进行评估进而做出选择
留出法:将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计
交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而进行k次训练和测试,最终返回k个测试结果的均值
这两个方法由于保留了一部分样本作测试,因此训练集比D小,会引入一些因样本规模不同导致的估计偏差。
自助法:给定包含m 个样本的数据集 D , 我们对它进行采样产生数据集 D’。每次随机从 D 中挑选一个样本, 将其拷贝放入 D’, 然后再将该样本放回初始数据集 D 中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行 m 次后,我们就得到了包含m个样本的数据集 D’,这就是自助采样的结果。显然, D 中有一部分样本会在 D’ 中多次出现,而另一部分样本不出现。可以做一个简单的估计,样本在 m 次采样中始终不被采到的概率是(1-1/m)^m, 取极限得1/e。
自助法在数据集较小、难以有效划分训练/测试集时很有用,此外其从初始数据集中产生多个不同的数据集,对集成学习方法有很大好处。缺点是,自助法产生的数据集改变了初始数据集的分布,会引入估计偏差。
在初始数据量足够时,留出法和交叉验证法更常用
在进行模型评估与选择时,除了要对算法进行选择,还需对算法参数进行设定,这就是调参
-
性能度量
性能度量是衡量模型泛化能力的评价标准,模型的"好坏"是相对的,什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求
错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例
这两个常用但不能满足所有任务需求,需使用其他的性能度量,如:查准率、查全率查准率:检索出的信息中有多少比例是用户感兴趣的
查全率:用户感兴趣的信息中有多少被检索出来了
一般来说,查准率高时,查全率往往偏低;查准率低时,查全率往往偏高以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称" P-R 曲线",显示该曲线的图称为" P-R图"。
可以根据此图判断方法的优劣。ROC曲线是研究学习器泛化性能的有力工具
AUC是roc曲线下的面积后面的都是评估学习器的性能以及研究泛化性能的工具,要码的太多,暂时不码了。下次希望能把手写注解做出来,根据注解更好地写博客,而不是搬运概念