【西瓜书阅读笔记】第一章到第四章

最新推荐文章于 2022-08-15 12:51:36 发布

瞲_大河弯弯

最新推荐文章于 2022-08-15 12:51:36 发布

阅读量966

点赞数

分类专栏：自动化理论知识复习文章标签：机器学习决策树剪枝算法

本文链接：https://blog.csdn.net/qq_33950926/article/details/116657949

版权

自动化理论知识复习专栏收录该内容

9 篇文章 6 订阅

订阅专栏

【西瓜书阅读笔记】

第一章
- 1.2基本术语
- 1.3 假设空间
第二章模型评估与选择
第三章线性模型
第四章决策树

第一章

1.2基本术语

分类任务：预测的结果是离散值
回归任务：预测的结果是连续值
二分类任务中，一类称为正类(positive class)一类为反类(negative class)
根据训练数据是否拥有标签信息，学习任务大致可分为监督学习和无监督学习，分类和回归是监督学习的代表，聚类是无监督学习的代表。
模型的泛化能力：学得模型适用于新样本的能力。

1.3 假设空间

奥卡姆剃刀：若有多个假设与观察一致,则选最简单的那个。
NFL定理

第二章模型评估与选择

2.2评估方法

在测试集测试模型对新样本的判断能力，然后用测试集的“测试误差”来作为泛化误差的近似。

训练集测试集划分

在这里插入图片描述

2.2.1留出法

在这里插入图片描述
这个方法就是我们常用的，28分法，那种，记得随机打乱数据集

2.2.2交叉验证法

在这里插入图片描述

2.2.3自助法

自助法可以减小数据规模不同造成的影响
在这里插入图片描述

2.2.4调参与最终模型

在这里插入图片描述

2.3 性能度量

衡量模型泛化能力的评价标准

在这里插入图片描述

分类任务常用的均方误差：
在这里插入图片描述

2.3.1 错误率与精度

在这里插入图片描述

2.3.2 查准率、查全率与F1

TP FP TN FN指标

查准率P 查全率R

在这里插入图片描述

P-R曲线图

在这里插入图片描述

F1指标

一般的上面的BEP指标过于简化，常用F1指标：
在这里插入图片描述

ROC与AUC

在这里插入图片描述

2.3.4 代价敏感错误率与代价曲线

就是假如说，把负样本预测为正样本，那么要加大惩罚。在这里插入图片描述
代价曲线

2.4 比较检验

机器学习性能比较涉及的几个重要的问题

比较泛化性能（在测试集上得到的）
测试集上的性能与测试集的本身选取有很大关系
机器学习有随机性，不一定每次结果都一样

2.4.1假设检验

略

2.4.2 交叉验证t检验

在这里插入图片描述
欲进行有效的假设检验，一个重要前提是测试错误率均为泛化错误率的独立采样.

2.4.3McNemar检验

在这里插入图片描述

2.4.4 Friedman检验与Nemenyi后续检验

略

2.5 偏差与方差

偏差：度量了学习算法期望预测与真实结果的偏差程度
方差：度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声：表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度.

在这里插入图片描述

泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的.给定学习任务，为了取得好的泛化性能,则需使偏差较小，即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小.
在这里插入图片描述

第三章线性模型

3.1基本形式

在这里插入图片描述

3.2 线性回归

一元线性回归

在这里插入图片描述
可用最小二乘法来求w，b：

多元线性回归

在这里插入图片描述

其中，X为：

以下是对线性模型的一个定义
在这里插入图片描述

3.3 对数几率回归

对数几率函数（logistics function）

在这里插入图片描述

线性判别分析

略写，有很深的数学推断
在这里插入图片描述

3.5 多分类学习

多分类学习的基本思路是“拆分法”，把多分类任务拆分成若干个二分类任务
在这里插入图片描述
还有ECOC

3.6类别不均衡问题

类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况．不失一般性,本节假定正类样例较少,反类样例较多.

再缩放思想

在这里插入图片描述
PS：

在这里插入图片描述

第四章决策树

决策树示例图：
在这里插入图片描述

一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列.决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树，其基本流程遵循简单且直观的“分而治之”(divide-and-conquer)策略,如图4.2所示. 在这里插入图片描述

在这里插入图片描述

4.2 划分选择

我们在划分时，希望每个节点越纯净越好（我的理解就是，每个节点之间的独立性好）

4.2.1 信息增益

信息熵：是度量样本集合纯度最常用的一种指标
在这里插入图片描述
具体使用请看P76页的西瓜数据2.0的例子。

4.2.2 增益率

信息增益准则对可取值数目较多的属性有所偏好，为了减少这种影响，可以使用增益率：
在这里插入图片描述
增益率准则对可取值数目较少的属性有所偏好,故C4.5算法并不直接选择增益率最大的候选划分属性，而使用了一个启发式：先从候选划分属性中找到信息增益高于平均水平的属性，再从中选择增益率最高的。

4.2.3 基尼指数

在这里插入图片描述

4.3 剪枝处理

剪枝是决策树学习算法对付“过拟合”的主要手段.
决策树剪枝的基本策略有预剪枝和后剪枝，预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点.

而判断剪枝是否可以提高决策树的泛化性能，则可以使用2.2节提出的性能评估方法。