第一章
1.2基本术语
- 分类任务:预测的结果是离散值
- 回归任务:预测的结果是连续值
- 二分类任务中,一类称为正类(positive class)一类为反类(negative class)
- 根据训练数据是否拥有标签信息,学习任务大致可分为监督学习和无监督学习,分类和回归是监督学习的代表,聚类是无监督学习的代表。
- 模型的泛化能力:学得模型适用于新样本的能力。
1.3 假设空间
- 奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个。
- NFL定理
第二章 模型评估与选择
2.2评估方法
在测试集测试模型对新样本的判断能力,然后用测试集的“测试误差”来作为泛化误差的近似。
训练集测试集划分
2.2.1留出法
这个方法就是我们常用的,28分法,那种,记得随机打乱数据集
2.2.2交叉验证法
2.2.3自助法
自助法可以减小数据规模不同造成的影响
2.2.4调参与最终模型
2.3 性能度量
衡量模型泛化能力的评价标准
分类任务常用的均方误差:
2.3.1 错误率与精度
2.3.2 查准率、查全率与F1
TP FP TN FN指标
查准率P 查全率R
P-R曲线图
F1指标
一般的上面的BEP指标过于简化,常用F1指标:
ROC与AUC
2.3.4 代价敏感错误率与代价曲线
就是假如说,把负样本预测为正样本,那么要加大惩罚。
代价曲线
2.4 比较检验
机器学习性能比较涉及的几个重要的问题
- 比较泛化性能(在测试集上得到的)
- 测试集上的性能与测试集的本身选取有很大关系
- 机器学习有随机性,不一定每次结果都一样
2.4.1假设检验
略
2.4.2 交叉验证t检验
欲进行有效的假设检验,一个重要前提是测试错误率均为泛化错误率的独立采样.
2.4.3McNemar检验
2.4.4 Friedman检验与Nemenyi后续检验
略
2.5 偏差与方差
- 偏差:度量了学习算法期望预测与真实结果的偏差程度
- 方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
- 噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度.
泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的.给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小.
第三章 线性模型
3.1基本形式
3.2 线性回归
一元线性回归
可用最小二乘法来求w,b:
多元线性回归
其中,X为:
以下是对线性模型的一个定义
3.3 对数几率回归
对数几率函数(logistics function)
线性判别分析
略写,有很深的数学推断
3.5 多分类学习
多分类学习的基本思路是“拆分法”,把多分类任务拆分成若干个二分类任务
还有ECOC
3.6类别不均衡问题
类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况.不失一般性,本节假定正类样例较少,反类样例较多.
再缩放思想
PS:
第四章 决策树
决策树示例图:
一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列.决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之”(divide-and-conquer)策略,如图4.2所示.
4.2 划分选择
我们在划分时,希望每个节点越纯净越好(我的理解就是,每个节点之间的独立性好)
4.2.1 信息增益
信息熵:是度量样本集合纯度最常用的一种指标
具体使用请看P76页的西瓜数据2.0的例子。
4.2.2 增益率
信息增益准则对可取值数目较多的属性有所偏好,为了减少这种影响,可以使用增益率:
增益率准则对可取值数目较少的属性有所偏好,故C4.5算法并不直接选择增益率最大的候选划分属性,而使用了一个启发式:先从候选划分属性中找到信息增益高于平均水平的属性,再从中选择增益率最高的。
4.2.3 基尼指数
4.3 剪枝处理
剪枝是决策树学习算法对付“过拟合”的主要手段.
决策树剪枝的基本策略有预剪枝和后剪枝,预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点.
而判断剪枝是否可以提高决策树的泛化性能,则可以使用2.2节提出的性能评估方法。
4.3.1 预剪枝
P82页例子
特点
- 使很多节点不再“开展”,降低过拟合风险,显著减少决策树的训练时间开销和测试时间开销
- 可能会影响泛化能力下降(因为裁剪掉的一个节点虽然降低了泛化能力,但这个节点如果保留的话,他下面的节点可能就又提高了)
- 有欠拟合的风险
- 是从根部开始的
决策树桩:一棵仅有一层划分的决策树。
4.3.2 后剪枝
特点
- 一般是从最外的节点开始的,在完全生成决策树后进行的。
- 后剪枝决策树的欠拟合风险小,泛化性能往往优于预剪枝决策树。
- 训练时间更多
4.4连续与缺值
4.4.1 连续值处理
到目前为止,我们都是在讨论离散属性生成决策树,在现实生活中我们也会遇到连续属性,故我们需要进行连续属性离散化,最简单的方法是二分法
4.4.2 缺失值处理
即某个样本不完整(比如西瓜有5个属性,但是这个样本知道4个属性的情况)
缺失值带来两个问题:
如何在属性值缺失的情况下进行划分属性选择?(存疑)
不是很懂
给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
4.5 多变量决策树
例子