西瓜书——决策数相关笔记

最新推荐文章于 2023-08-30 20:06:30 发布

del还想学习

最新推荐文章于 2023-08-30 20:06:30 发布

阅读量157

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_44497516/article/details/108007459

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

ECOC——纠错输出码

ECOC工作过程主要分两步

编码：对N个类别做M次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集；这样一共产生M个训练集，壳训练出M个分类器。
解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码，将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果

类别不平衡问题

令 $m^{+}$ 表示正例数目， $m^{-}$ 表示反例数目，
$\frac{y}{1-y} > \frac{m^{+}}{m^{-}} 则预测为正例$

信息增益

信息熵

$\sum_{k=1}^{|\mathcal{Y}|} p_k \log_{2} p_k$

$E n t (D)$ 值越小， $D$ 的纯度越高。

属性 $a$ 有V个可能取值， $D^v$ 表示D中所有在属性 $a$ 上取值为 $a^v$ 的样本，用属性 $a$ 对样本集 $D$ 进行划分获得的“信息增益”：
$Ent(D)-\sum_{v=1}^{V} \frac{|D^v|}{|D|}Ent(D^v)$
选择属性 $a_*= \arg \max_{a\in A} Gain(D,a)$

增益率

增益率定义为：
$Gain_ratio(D,a) = \frac{Gain(D,a)}{IV(a)}$
其中
$-\sum_{v=1}^{V} \frac{|D^v|}{|D|}\log_2 \frac{|D^v|}{|D|}$
称为属性 $a$ 的“固有值”。

基尼指数

数据集 $D$ 的纯度可用基尼值来度量：
$\mathrm{Gini}(D) = \sum_{k=1}^{|\mathcal{Y}|}\sum_{k'\neq k}p_kp_{k'}=1-\sum_{k=1}^{|\mathcal Y|} p_k^2$
属性 $a$ 的基尼指数定义为：
$\mathrm{Gini\_index}(D,a) = \sum_{v=1}^{V}\frac{D^v}{D}\mathrm{Gini}(D^v)$
选择属性 $a_*=\arg\max_{a\in A} \mathrm{Gini\_index}(D,a)$

缺失值处理

给定数据集 $D$ 和属性 $a$ ，令 $\tilde{D}$ 表示 $D$ 中在属性 $a$ 上没有缺失值的样本子集。为每个样本 $x$ 赋予一个权重 $w_x$ ，初始化为1，定义：
$\rho = \frac{\sum_{x\in \tilde{D} }w_x}{\sum_{x \in D}w_x},\\ \tilde{p}_k = \frac{\sum_{x\in \tilde{D}_k} w_x}{\sum_{x\in \tilde{D}}w_x}\quad(1\leq k \leq |\mathcal{Y}|)\\ \tilde{r}_v = \frac{\sum_{x\in \tilde{D}^v}w_x}{\sum_{x\in \tilde{D}}w_x}\quad(1\leq v\leq V)$
将（3）式信息增益推广为：
$\mathrm{Gain}(D,a) = \rho \times \mathrm{Gain}(\tilde{D},a)\\ = \rho \times \big(\mathrm{Ent}(\tilde{D})-\sum_{v=1}^{V}\tilde{r}_v\mathrm{Ent}{\tilde{D}^v}\big)$
其中
$\mathrm{Ent}(\tilde{D}) = -\sum_{k=1}^{|\mathcal{Y}|}\tilde{p}_k\log_2 \tilde{p}_k$
缺失值样本权重调整为 $\tilde{r}_vw_x$