谈论算法的相对优劣,必须要针对具体的学习问题。
【一、基本概念】(仅记录自己不太熟悉或需要记忆的概念)
属性空间 (attribute space):属性张成的空间,也称为样本空间(sample space)或输入空间。
真相、真实(ground-truth):潜在规律自身。
标记空间(label space):所有标记的集合,也称输出空间。
泛化(generalization)能力:学得模型适用于新样本的能力。
归纳(induction):从特殊到一般的泛化过程。
演绎(deduction):从一般到特殊的特化(specialization)过程。
版本空间(version space):存在着一个与训练集一致的“假设集合”。
归纳偏好(inductive bias,简称偏好):机器学习算法在学习过程中对某种类型假设的偏好。
奥卡姆剃刀:一种常用的、自然科学研究的最基本原则,“若有多个假设与观察一致,则选最简单的那个”。
错误率(error rate):分类错误的样本数占样本总数的比例。
精度(accuracy):精度=1-错误率。
训练误差(training error):训练集上的误差,又称经验误差(empirical error)。
泛化误差(generalization error):在新样本上的误差。
分层采样(stratified sampling):保留类别比例的采样方式。
交叉验证法:将数据集分为k个大小相似的互斥子集,每次用k-1个子集作为训练集,余下的那个子集作为测试集,对样本进行k次训练和测试,结果取均值。又称k折交叉验证。
留一法(Leave-One-Out,LOO):特殊的交叉验证法,数据集中包含m个样本,分成k=m个子集。
自助法:对于有m个样本的数据集D,重新建立一个新的数据集D',每次有放回的随机在D中采样一个样本放入D'中,共采样m次。估计出大概有36.8%的样本不会被采样。以D'为训练集,D\D'(表示集合减法)做测试集。
包外估计(out-of-bag estimate):自助法的测试结果。
【二、知识脉络】
第一章主要介绍什么是机器学习,好的机器学习应该具有什么能力。
机器学习是通过已有的数据训练出模型,应用到新的数据中去的一种“学习算法”的学问。对于一个好的模型,要有恰当的特征、合适的算法、归纳偏好以及合理的评估手段。
第二章讲的是模型评估和选择。
评估方法:留出法、交叉验证法(特殊地,有留一法)、自助法
性能度量:均方误差、错误率与精度、查准率、查全率、F1、ROC、AUC、代价敏感错误率、代价曲线
比较检验:假设检验、交叉验证t检验、Friedman检验、Nemenyi后续检验