第1章:绪论
1.1 引言
- 机器学习研究的主要内容是关于计算机在数据上产生模型,即学习算法
1.2 基本术语
- 数据集
- 样本空间
- 特征向量
- 学习or训练
- 训练集
- 测试集
- 验证集
- 标记空间or样本空间
- 回归
- 分类
- 监督学习:分类和回归为代表
- 无监督学习:聚类为代表
- 泛化能力
1.3 假设空间
归纳学习:
- 狭义:从训练数据中学得概念,又称为概念学习
- 广义:大体相当于从样例里学习
概念学习:
- 假设一旦确定,假设空间及其规模大小也就确定了,比如书中西瓜问题。可以有种许多策略对其假设空间进行缩减,最终将会获得与训练集一致的(即对所有训练样本能够做出正确判断)的假设,这就是我们学习的成果。
1.4 归纳偏好
定义:机器学习在学习过程种对某种类型假设的偏好,称为“归纳偏好”。
任何一个有效的机器学习算法都有其归纳偏好,否则它将假设空间种看似在数据集上“等效”的假设所迷惑,而无法产生确定的结果。
- 选择偏好时候,可以遵循“奥姆剃刀原则”,即“若有多个假设与观察一致,则选择最简单的那个”。但该原则并非唯一可行性原则。同时该原则有不同的诠释,怎么定义哪一个更好,需要借助其他机制。
- NFL定理(没有买免费午餐定理):所有学习算法的期望性能和胡乱猜想差不多(该定理有个重要前提,即所有问题出现机会均等)。
NFL定理告诉我们不能脱离具体问题,空洞谈什么学习算法更好。
1.5 发展历程
- 二十世纪五十年代到七十年代初:推理期
- 二十世纪七十年代中期:知识期
- 二十世纪五十年代中后期:基于神经网络的“连接主义”
- 二十世纪六十年代:基于逻辑表示的”符号主义“,以决策理论为基础的学习技术以及强化学习技术等也得到了发展。二十多年后红极一时的统计学习理论的一些奠基性成果也是在这个时期取得
- 二十一世纪初,连接主义有卷土重来,掀起了以“深度学习”为名的热潮
1.6 应用现状
机器学习与普通人的生活密切相关,也能应用于政治比如:奥巴马选举……
1.7 阅读材料
……
第2章 模型评估与选择
2.2 经验误差与过拟合
- 过拟合定义:当模型把训练样本学的太好了,很可能已经把训练样本 自身的一些特点当作那些潜在样本都具有的一般性质,这样会导致泛化能力下降
- 欠拟合定义:指对训练样本的一般性质尚未学习好
对候选模型进行误差评估,选择泛化误差最小的那个模型
注意:训练误差由于过拟合的存在不适合作为标准!
2.2 评估方法
使用测试集对模型进行评估,从而得到“测试误差”作为泛化误差的近似
2.2.1 留出法
- 分层抽样
- 划分训练/测试集,常见做法是将大约2/3~4/5的样本作为训练集,剩下用于测试
2.2.2 交叉验证法
- 10次10折验证法
2.2.3 自助法
- 给定包含m个样本的D,每次随机从D中随机抽取一个样本放入D’中
- D\D’,D种大约有36.8%的数据没有杯采样
- 自助法改变了初始数据集的分布,这会引入误差,因此,在初始数据量足够多时,留出法和交叉验证
2.2.4 调参和最终模型
- 基于验证集上进行模型选择和调参
2.3 性能度量
2.3.1 错误率与精度
- 错误率:错误样本占总样本的比例
- 精度:1- 错误率
2.3.2 查准率,查全率与F1
- TP:真正例
- TN:假正例
- FP:真反例
- FN:假反例
查重率,查全率
F1度量,Fbeta
P-R曲线
宏查全率,宏查准率
微查全率,微查准率
(先咕一下,还没学latex)
2.3.3 ROC和AUC
真正例率,假正例率
ROC曲线和AUC示意图
2.3.4 代价敏感错误率与代价曲线
代价矩阵
正例概率代价
归一化代价
2.4 比较检验
(由于没学概率论,这里先咕掉了……)
2.4.1假设检验
2.4.2 交叉验证t检验
2.4.3 McNemar检验
Friedman检验与Nemenyi后续检验
2.5 偏差和方差
偏差
方差
噪声
泛化误差可分解为偏差,方差,噪声之和