机器学习（4）

最新推荐文章于 2024-09-14 19:18:15 发布

Ab_stupid

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量67

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能笔记

本文链接：https://blog.csdn.net/Ab_stupid/article/details/133741476

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一决策树

1 决策树模型

决策树基于“树”结构进行决策

每个“内部结点”对应于某个属性上的“测试”
每个分支对应于该测试的一种可能结果（即该属性的某个取值）
每个“叶节点”对应与一个“预测结果”

在这里插入图片描述
学习过程： 通过对训练样本的分析来确定“划分属性”（即内部结点所对应的属性）。
预测过程： 将测试示例从根结点开始，沿着划分属性所构成的“判定测试序列”下行，直到叶结点。

2 基本流程

策略： “分而治之”（divide-and-conquer）
自根至叶的递归过程
在每个中间结点寻找一个“划分”（split or test）属性

三种停止条件：

当前结点包含的样本全属于同一类别，无需划分；
当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；
当前结点包含的样本集合为空，不能划分。

3 基本算法

在这里插入图片描述

二信息增益

1 信息增益（Information Gain）

信息熵（entropy） 是度量样本集合“纯度”最常用的一种指标，假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k$ ，则 $D$ 的信息熵定义为：
$\operatorname { E n t } ( D ) = - \sum _ { k = 1 } ^ { |y| } p _ { k } \log _ { 2 } p _ { k }$ $E n t (D)$ 的值越小，则 $D$ 的纯度越高
计算信息熵时约定：若 $p = 0$ ，则 $p\log_2p=0$
${Ent}(D)$ 的最小值为0，最大值为 $log_2|y|$
信息增益直接以信息熵为基础，计算当前划分对信息熵所造成的变化

离散属性 $a$ 的取值： $\{ a ^ { 1 } , a ^ { 2 } , \cdots , a ^ { V } \}$
$D ^ { v }:D$ 中在 $a$ 上取值 $a^v$ 的样本集合
以属性 $a$ 对数据集 $D$ 进行划分所获得的信息增益为：
$\operatorname { G a i n } ( D , a ) = { E n t ( D ) }- \sum _ { v = 1 } ^ { V }\frac{|D^v|}{|D|}E n t( D ^ { v } )$ 在这里插入图片描述

2 一个例子

在这里插入图片描述

三其他属性划分准则

1 增益率（Gain Ratio）

信息增益：对可取值数目较多的属性有所偏好
有明显弱点，例如：考虑将“编号”作为一个属性

增益率： $Gain\_ratio ( D , a ) = \frac { ( Gain ( D ) , a ) } { Ⅳ( a ) }$

其中： $\sum _ { v = 1 } ^ { V } \frac { | D ^ { v } | } { | D | } \log _ { 2 } \frac { | D ^ { v } | } { | D | }$

属性 $a$ 的可能取值数目越多（即 $Ⅴ$ 越大），则 $Ⅳ (a)$ 的值通常就越大

启发式： 先从候选划分属性中找出信息增益高于平均水平的，再从中选取增益率最高的（C4.5算法中使用）

2 基尼指数（Gini Index）

$\begin{align*} G i n i ( D ) &= \sum _ { k = 1 } ^ { | y | } \sum _ { k ^ {'} ≠ k }p_kp_{k^{'}}\\ &=1-\sum _ { k = 1 } ^ { | y | } p _ { k } ^ { 2 } \end{align*}$ 反映了从 $D$ 中随机抽取两个样例，其类别标记不一致的概率
Gini(D)越小，数据集D的纯度越高