April 1~14 2018
第一章 绪论
作者以人基于经验做出的预判出发,引申到机器学习是致力于研究计算机如何通过计算的手段,利用经验来改善系统自身的性能,让我大致了解了一下什么是“机器学习”;并进一步的通过挑选西瓜的经验为例,了解了关于机器学习的基本术语和概念等基础知识,最后简要的介绍了机器学习的发展历程及应用现状。
机器学习的目标:使学得的模型能更好的适用于“新样本”;
“泛化”能力:学得模型适用于新样本的能力;
版本空间:存在一个与训练集一致的“假设集合”;
归纳偏好:算法在机器学习过程中对某种假设的偏好;任何一个有效的机器学习算法必定有其归纳偏好,否则它无法产生确定的学习结果;可看作是学习算法在一个可能很庞大的假设空间中对假设进行选择的启发式“价值观”;可用“奥卡姆剃刀”原则引导算法确立“正确的”的偏好;
“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个;
没有免费的午餐定理(NFL: No Free Lunch Theorem):谈论算法的优劣需结合具体问题具体分析,脱离具体问题,空泛的讨论“什么学习算法更好”毫无意义;
机器学习的主流:符号机器学习 --> 统计机器学习
第二章 模型评估于选择
误差:学习器的实际预测输出与样本的真实输出之间的差异;
训练误差(经验误差):学习器在训练集上的误差;
泛化误差:学习器在新样本上的误差;
过拟合(过配):多种因素可能导致过拟合,其中最常见的是由于学习能力过强,把训练样本所包含的不太一般的特性都学到了,很可能把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质;会导致泛化能力下降;过拟合无法彻底避免,只能是减小其风险。
欠拟合(欠配):是指对训练样本的一般性质尚未学好;相对于过拟合而言,是由于学习能力低造成的,较容易克服。
我们无法直接获得泛化误差,而训练误差又由于过拟合现象的存在不适合作为标准,在现实生活中,可通过以下进行模型评估与选择:
评估方法:以测试集上的“测试误差”作为泛化误差的近似,但测试样本尽量不在训练集中出现,未在训练过程中使用过。
常见做法:留出法;交叉验证法;自助法。
留出法:直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T ;S/T的划分要保持数据分布的一致性,分层采样比例一般是S:T=7:3; 一般测试集至少应包含30个样例;使用留出法时一般要采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果;因为S、T的划分导致评估结果的保真性降低问题,没有完美的解决方案,通常是将大约2/3~4/5的样本用于训练,剩余样本用于测试。
交叉验证法( k 折交叉验证):先将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布一致性,即从数据集中通过分层采样得到;然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,K常用取值是10。
自助法:它直接以自助采样法(bootstrap sampling) 为基础; 给定包含m个样本的数据集D,我们对它进行采样产生数据集D’,每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’,这就是自助采样的结果。
通过自助来样,初始数据集D 中约有36.8% 的样本未出现在采样数据集D'中,于是我们可将D' 用作训练集, D\D' 用作测试集,这种测试结果也称为包外估计。
自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处;但自助法会引入估计偏差,故在初始数据量足够时,留出法和交叉验证法更常用一些。
调参:在进行模型评估与选择时,除了对适用学习算法进行选择,还需对算法参数进行设定,即参数调节;
性能度量:对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准;
性能度量反映了任务需求,“模型”的好坏是相对的,它不仅取决于算法和数据,还决定于任务需求;回归任务最常用的性能度量是“均方误差”。
常用的两种性能度量是错误率和精度,但并不能满足所有任务需求,其他的性能度量:查准率、查全率与F1
错误率:分类错误的样本数占样本总数的比例;
精度:分类正确的样本数占样本总数的比例;
查准率P:“检索出的信息中有多少比例是用户感兴趣的" ;
查全率R:“用户感兴趣的信息中有多少被检索出来了”;
F1:基于查准率与查全率的调和平均;
查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称" P-R 曲线"; " 查准率=查全率"时的取值称为 “平衡点BEP”,但BEP过于简化,更常用的是F1度量。
ROC曲线:以“真正例率(TPR)”为纵轴,“假正例率(FPR)”为横轴;是从排序本身质量的好坏角度出发来研究学习器泛化性能的有力工具;全称是“受试者工作特征”曲线;
AUC: 可通过对ROC 曲线下各部分的面积求和而得。AUC考虑的是样本预测的排序质量,因此它与排序误差有紧密联系。
在现实任务中,不同类型的错误造成的后果不同,为权衡不同类型错误造成的不同损失,可为错误赋予“非均等代价”。
|
|
|
| ||||||
| 对学习器的性能进行比较的适当的方法对关于单个学习器泛化性能的假设进行校验,可以用“二项检验”和“t检验”。 但现实任务中,更多的是对不同学习器的性能进行比较:
假设检验涉及到统计的一些知识,有点生疏,看的有点吃力,翻看高数书时好像也是直接给结论,第一次遇见其应用,看不太懂,看起来有点像查表? “偏差-方差分解”是解释学习算法泛化性能的 一种重要工具,泛化误差可分解为: 泛化误差 = 偏差 + 方差 + 噪声 |
|
| ||||||
|
|
| |||||||
|
|
|
本周主要的工作:对《机器学习》书本第一、二章节的学习与总结