决策树预备知识

最新推荐文章于 2024-07-11 15:21:16 发布

wcc8848

最新推荐文章于 2024-07-11 15:21:16 发布

阅读量404

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wcc8848/article/details/124115794

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

决策树是一个简单的判别模型，并且可以出现在训练集上100%的准确率

决策树的内部节点是特征，叶子表示的就是标签

在具体介绍决策树之前，首先介绍它的先驱概念

1.如何通过比特（01）来表示一个随机变量X的序列

例如：: BACADDCBAC.....转化成为01001000111110010010.......

假如：P(A)= P(B)=P(C)=P(D)，需要四种不同的比特来表示，且概率相等，那么笔者认为可以借助抛硬币的的方式决定，一枚硬币可以产生（0，1）两种信息表示，那么用两枚硬币，便可以表示均等的信息描述

A	B	C	D
00	01	10	11

进行表示，可以匹配上述案例，

加入，X中，ABCD,出现的概率不均等，我们就需要采用不同的比特表示方式了

P(X=A)=1/2 P(X=B)=1/4 P(X=C)=1/8 P(X=D)=1/8

在这种情况下，根据概率，来从新设计变量的比特表示：

首先，P（X=A）= 1/2,那么我们次啊用一个比特位来描述，无非就是（0，1）两种情况，我们默认采用一位0来表示A,

P(B) = 1/4,那么两位比特位，可以确定四种表示，P(B)=1/4,所以采用先确定以为1,再使用一位0,来表示1/4,则B= 10

P(C)和P(D)各为1/8,所以，在四分之分一，再分两份，在P(B)的基础上继续分割。所以采用三位比特，110，和111l来表示：

汇总可得：

A	B	C	D
0	10	110	111

则上述案例BACADDCBAC，可表示为：10|0|110|0|111|111|110|10|0|110 为避免混淆，采用|分割。

$E=1 * \frac{1}{2}+2 * \frac{1}{4}+3 * \frac{1}{8}+3 * \frac{1}{8}=1.75$

$E=-\log _{2}\left(\frac{1}{2}\right) * \frac{1}{2}-\log _{2}\left(\frac{1}{4}\right) * \frac{1}{4}-\log _{2}\left(\frac{1}{8}\right) * \frac{1}{8}-\log _{2}\left(\frac{1}{8}\right) * \frac{1}{8}=1.75$

平均需要1.75个比特位表示一个字母的信息

由此，我们可以推断出，

假设现在随机变量X具有m个值，分别为: V1 ,V2 ,....,Vm；并且各个值出现的概率如下表所示

P(X=V1 )=p1 P(X=V2 )=p2 P(X=V3 )=p3 .................... P(X=Vm)=pm

$\begin{aligned} E(X) &=-p_{1} \log _{2}\left(p_{1}\right)-p_{2} \log _{2}\left(p_{2}\right)-\ldots-p_{m} \log _{2}\left(p_{m}\right) \\ &=-\sum_{i=1}^{m} p_{i} \log _{2}\left(p_{i}\right) \end{aligned}$

比特化的结果就是信息熵：

$H(X)=-\sum_{i=1}^{m} p_{i} \log _{2}\left(p_{i}\right)$

• High Entropy(高信息熵)：表示随机变量X是均匀分布的，各种取值情况是等概率出现的。

• Low Entropy(低信息熵)：表示随机变量X各种取值不是等概率出现。可能出现有的事件概率很大，有的事件概率很小。

给定条件X的情况下，所有不同x值情况下Y的信息熵的平均值叫做条件熵。另外一个公式如下所示：

$H(Y \mid X)=H(X, Y)-H(X)$

事件(X,Y)发生所包含的熵，减去事件X单独发生的熵，即为在事件X发生的前提下，Y发生“新”带来的熵，这个也就是条件熵本身的概念。

$\begin{aligned} H(Y \mid X) &=\sum_{j=1} P\left(\mathrm{X}=\mathrm{v}_{\mathrm{j}}\right) H\left(Y \mid X=v_{j}\right)=\sum_{x} P(\mathrm{x}) H(Y \mid x) \\ &=\sum_{x} p(x)\left(-\sum_{y} p(y \mid x) \log (p(y \mid x))\right)=-\sum_{x} \sum_{y} p(x) p(y \mid x) \log (p(y \mid x)) \\ &=-\sum_{x} \sum_{y} p(x, y) \log \left(\frac{p(x, y)}{p(x)}\right) \\ &=-\sum_{x} \sum_{y} p(x, y) \log (p(x, y))-\left[-\sum_{x}\left(\sum_{y} p(x, y)\right) \log (p(x))\right] \\ &=H(X, Y)-\left[-\sum_{x} p(x) \log (p(x))\right]=H(X, Y)-H(X) \end{aligned}$

wcc8848

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树预备知识

决策树是一个简单的判别模型，并且可以出现在训练集上100%的准确率决策树的内部节点是特征，叶子表示的就是标签在具体介绍决策树之前，首先介绍它的先驱概念1.如何通过比特（01）来表示一个随机变量X的序列例如：: BACADDCBAC.....转化成为01001000111110010010.......假如：P(A)= P(B)=P(C)=P(D)，需要四种不同的比特来表示，且概率相等，那么笔者认为可以借助抛硬币的的方式决定，一枚硬币可以产生（0，1）两种信息表示，那么用两枚硬币，便可
复制链接

扫一扫