决策树基础初学笔记

最新推荐文章于 2024-10-13 17:50:27 发布

shan_shmily

最新推荐文章于 2024-10-13 17:50:27 发布

阅读量114

点赞数

分类专栏：人工智能文章标签：决策树机器学习人工智能

本文链接：https://blog.csdn.net/shan_5233/article/details/125232011

版权

人工智能专栏收录该内容

9 篇文章 2 订阅

订阅专栏

前言

引入决策树分类的例子来理解决策树（假设你已经知道了什么是分类问题）
例如现在拥有数据如下：根据数据特征（房产、婚姻、年收入）判断会不会拖欠贷款（label）。

ID	房产	婚姻	年收入	拖欠贷款
1	是	单身	125k	否
2	否	已婚	100k	否
3	否	单身	70k	否
4	是	已婚	120k	否
5	否	离异	95k	是
6	否	已婚	60k	否
7	是	离异	220k	否
8	否	单身	85k	是
9	否	已婚	75k	否
10	否	单身	90k	是

根据数据构建决策树，而不是常识。
在这里插入图片描述
假设这里有一条新的数据

ID	房产	婚姻	年收入	拖欠贷款
1	否	单身	70k	？

在这里插入图片描述
构建决策树时先选择哪个属性呢？属性的选择用什么度量呢？

答案是：用熵和基尼系数来度量
熵： p(i)表示label等于i的概率,n表示类别
$ENT(D)=-\sum_{j=0} ^{n-1} P(i)log^{p(i)}_2$
基尼系数
$Gini(D)=1-\sum_{i=0}^{n-1}p(i)^2$
基尼系数计算示例：

label=0示例有5个，label=1的示例有5个。P(0)=0.5 P(1)=0.5
Gini = 1-p(0)² -p(1)² =1-0.5² -0.5²=0.5 ENT(D)=1
label=0示例有2个，label=1的示例有8个。P(0)=0.2 P(1)=0.8
Gini = 1-p(0)² -p(1)² =1-0.2² -0.8²=0.32 ENT(D)=0.72