人工智能入门课程学习（8）——决策树算法

最新推荐文章于 2024-07-31 19:40:30 发布

ICoder_Next

最新推荐文章于 2024-07-31 19:40:30 发布

阅读量1.5k

点赞数

分类专栏：人工智能文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36079912/article/details/106093109

版权

1.决策树算法简介

决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法

决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。

怎么理解这句话？通过一个对话例子
在这里插入图片描述
想一想这个女生为什么把年龄放在最上面判断！？？

上面案例是女生通过定性的主观意识，把年龄放到最上面，那么如果需要对这一过程进行量化，该如何处理呢？

此时需要用到信息论中的知识：信息熵，信息增益

2.决策树分类原理

2.1 熵

物理学上，熵 Entropy 是“混乱”程度的量度。
在这里插入图片描述
系统越有序，熵值越低；系统越混乱或者分散，熵值越高。
1948年香农提出了信息熵（Entropy）的概念。

假如事件A的分类划分是（A1,A2,…,An），每部分发生的概率是(p1,p2,…,pn)，那信息熵定义为公式如下：（log是以2为底，lg是以10为底）
在这里插入图片描述

2.2 决策树的划分依据一------信息增益

信息增益：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。

信息增益 = entroy(前) - entroy(后)

例如计算 性别和活跃度两个特征，哪个对用户流失影响更大
数据说明：第一列为论坛号码，第二列为性别，第三列为活跃度，最后一列用户是否流失。
在这里插入图片描述
通过计算信息增益可以解决这个问题，统计上右表信息

其中Positive为正样本（已流失），Negative为负样本（未流失），下面的数值为不同划分下对应的人数。
可得到三个熵：

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。