【西瓜书阅读笔记】第一章到第四章

第一章

1.2基本术语

  • 分类任务:预测的结果是离散值
  • 回归任务:预测的结果是连续值
  • 二分类任务中,一类称为正类(positive class)一类为反类(negative class)
  • 根据训练数据是否拥有标签信息,学习任务大致可分为监督学习无监督学习分类和回归是监督学习的代表,聚类是无监督学习的代表。
  • 模型的泛化能力:学得模型适用于新样本的能力。
    -在这里插入图片描述

1.3 假设空间

  • 奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个。
  • NFL定理

第二章 模型评估与选择

2.2评估方法

在测试集测试模型对新样本的判断能力,然后用测试集的“测试误差”来作为泛化误差的近似。

训练集测试集划分

在这里插入图片描述

2.2.1留出法

在这里插入图片描述
这个方法就是我们常用的,28分法,那种,记得随机打乱数据集

2.2.2交叉验证法

在这里插入图片描述

2.2.3自助法

自助法可以减小数据规模不同造成的影响
在这里插入图片描述

2.2.4调参与最终模型

在这里插入图片描述

2.3 性能度量

衡量模型泛化能力的评价标准

在这里插入图片描述

分类任务常用的均方误差:
在这里插入图片描述

2.3.1 错误率与精度

在这里插入图片描述
在这里插入图片描述

2.3.2 查准率、查全率与F1

TP FP TN FN指标在这里插入图片描述
查准率P 查全率R

在这里插入图片描述

P-R曲线图

在这里插入图片描述

F1指标

一般的上面的BEP指标过于简化,常用F1指标:
在这里插入图片描述

ROC与AUC

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3.4 代价敏感错误率与代价曲线

就是假如说,把负样本预测为正样本,那么要加大惩罚。在这里插入图片描述
代价曲线
在这里插入图片描述
在这里插入图片描述

2.4 比较检验

机器学习性能比较涉及的几个重要的问题

  1. 比较泛化性能(在测试集上得到的)
  2. 测试集上的性能与测试集的本身选取有很大关系
  3. 机器学习有随机性,不一定每次结果都一样
    在这里插入图片描述

2.4.1假设检验

2.4.2 交叉验证t检验

在这里插入图片描述
欲进行有效的假设检验,一个重要前提是测试错误率均为泛化错误率的独立采样.

2.4.3McNemar检验

在这里插入图片描述

2.4.4 Friedman检验与Nemenyi后续检验

2.5 偏差与方差

  • 偏差:度量了学习算法期望预测与真实结果的偏差程度
  • 方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
  • 噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度.

在这里插入图片描述

泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的.给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小.
在这里插入图片描述

第三章 线性模型

3.1基本形式

在这里插入图片描述

3.2 线性回归

一元线性回归

在这里插入图片描述
可用最小二乘法来求w,b:
在这里插入图片描述
在这里插入图片描述

多元线性回归

在这里插入图片描述
在这里插入图片描述
其中,X为:
在这里插入图片描述


以下是对线性模型的一个定义
在这里插入图片描述

3.3 对数几率回归

对数几率函数(logistics function)

在这里插入图片描述

线性判别分析

略写,有很深的数学推断
在这里插入图片描述

3.5 多分类学习

多分类学习的基本思路是“拆分法”,把多分类任务拆分成若干个二分类任务
在这里插入图片描述
还有ECOC

3.6类别不均衡问题

类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况.不失一般性,本节假定正类样例较少,反类样例较多.

再缩放思想

在这里插入图片描述
PS:

在这里插入图片描述

第四章 决策树

决策树示例图:
在这里插入图片描述

一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列.决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之”(divide-and-conquer)策略,如图4.2所示.在这里插入图片描述

在这里插入图片描述

4.2 划分选择

我们在划分时,希望每个节点越纯净越好(我的理解就是,每个节点之间的独立性好

4.2.1 信息增益

信息熵:是度量样本集合纯度最常用的一种指标
在这里插入图片描述
具体使用请看P76页的西瓜数据2.0的例子。

4.2.2 增益率

信息增益准则对可取值数目较多的属性有所偏好,为了减少这种影响,可以使用增益率:
在这里插入图片描述
增益率准则对可取值数目较少的属性有所偏好,故C4.5算法并不直接选择增益率最大的候选划分属性,而使用了一个启发式:先从候选划分属性中找到信息增益高于平均水平的属性,再从中选择增益率最高的。

4.2.3 基尼指数

在这里插入图片描述

4.3 剪枝处理

剪枝是决策树学习算法对付“过拟合”的主要手段.
决策树剪枝的基本策略有预剪枝和后剪枝预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点.

而判断剪枝是否可以提高决策树的泛化性能,则可以使用2.2节提出的性能评估方法。

4.3.1 预剪枝

P82页例子

特点
  • 使很多节点不再“开展”,降低过拟合风险,显著减少决策树的训练时间开销和测试时间开销
  • 可能会影响泛化能力下降(因为裁剪掉的一个节点虽然降低了泛化能力,但这个节点如果保留的话,他下面的节点可能就又提高了)
  • 有欠拟合的风险
  • 是从根部开始的
    决策树桩:一棵仅有一层划分的决策树。

4.3.2 后剪枝

特点
  • 一般是从最外的节点开始的,在完全生成决策树后进行的。
  • 后剪枝决策树的欠拟合风险小,泛化性能往往优于预剪枝决策树。
  • 训练时间更多

4.4连续与缺值

4.4.1 连续值处理

到目前为止,我们都是在讨论离散属性生成决策树,在现实生活中我们也会遇到连续属性,故我们需要进行连续属性离散化,最简单的方法是二分法
在这里插入图片描述
在这里插入图片描述

4.4.2 缺失值处理

即某个样本不完整(比如西瓜有5个属性,但是这个样本知道4个属性的情况)

缺失值带来两个问题:

如何在属性值缺失的情况下进行划分属性选择?(存疑)

在这里插入图片描述
不是很懂

给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?

在这里插入图片描述

4.5 多变量决策树

在这里插入图片描述
例子
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瞲_大河弯弯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值