决策树中信息增益最大找的是样本之间差异最大的特征

最新推荐文章于 2023-08-05 02:10:15 发布

罗泽

最新推荐文章于 2023-08-05 02:10:15 发布

阅读量2.8k

点赞数 1

分类专栏：机器学习文章标签：决策树信息增益

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013698770/article/details/53527539

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

　　决策树的每一层都需要根据最大信息增益来进行分类特征的选取。实际上，信息增益最大找的是样本之间差异最大的特征

1 最大信息增益的定义

　　信息增益是指，分类前根据原始类别计算的熵值ResEntropy和分类后计算的熵值NewEntropy两者的差值DifferenceEntropy。因此，信息增益最大是指DifferenceEntropy最大。

2 熵值越小，样本类别越一致

　　既然原始的熵值是常量（当样本固定后），那么最大信息熵值实际上也就说是分类后的熵值要越小越好。我们知道，熵是用来度量信息容量的，即信息量越大，信息越多样，其熵值越大。相反，如果信息很一致，其熵值是很小的。
　　将其推广到分类中，分类后的两个类别，其各自的样本结果越复杂，则分类后的熵值越大。其自的样本结果越一致，其熵值越小。比如，区分班上爱学习和不爱学习的20个学生，如果用考试成绩特诊来分类，成绩特征值为高的一类同学9个人都是爱学习的，只有1个是不爱学习的，即成绩特征值高得一类样本结果的一致性很好。但是，如果使用身高来分类，身高属性值为高的一类同学中，可能5个是爱学习的，5个是不爱学习的，身高高的一类中样本结果的一致性很差。
　　也就是说，在爱学习和不爱学习的分类例子中，成绩特征比身高特征显著，其分类结果更为一致。而最大增益原则选取的正是使结果一致的特征。
　　

3 最大信息增益的特征即为最显著特征

　　
　　也就是说，最大信息熵的所选的特征是分类后熵值最小的特征。分类后熵值最小的特征恰恰是分类结果一致的特征，而分类结果一致的特征必须是两类样本差异最大的特征。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄11年

128
原创

356
点赞

990
收藏

396
粉丝

关注

私信

热门文章

分类专栏

笔记 1篇
opencv 1篇
机器学习 8篇
图像处理 5篇
C++ 2篇
学习心得
Halcon 22篇
C#入门 7篇
相机镜头和光源 10篇
认知 2篇
神经网络 5篇
相机软件 1篇
AOI软件框架 9篇
产品 1篇
工作方法
运动控制 1篇
Python 10篇
Linux入门 9篇
TensorFlow 4篇
Object Detection 5篇
caffe 13篇
markdown
matlab 6篇
Qt 4篇
PersonReID 8篇

最新评论

Halcon中的图像相减算子abs_diff_image和sub_image
入门到卸载: 你试试不就知道了能耽误你几分钟
Halcon中的图像相减算子abs_diff_image和sub_image
m0_73037592: 如果两张图像的尺寸不一样能进行加减吗？
Halcon中 reduce_domain算子和crop_domain算子的使用及配合
懂技术的pm: 寥寥几句话却说得很明白。
Halcon中count_obj算子及其异常分析
freekun: *异常第一种情况我没有解决，博主帮忙看一下问题在哪里，感谢 *如下没有交集的区域求交集后count_obj 计算结果为1 *union1合并后count_obj 计算结果为1 *再connection打散后count_obj 计算结果为1 *有什么办法能去掉这个空使count_obj结果为0吗 gen_rectangle1 (Rectangle, 30, 20, 100, 200) gen_rectangle1 (Rectangle1, 330, 20, 400, 200) intersection (Rectangle, Rectangle1, RegionIntersection) count_obj (RegionIntersection, Number1) union1 (RegionIntersection, RegionUnion) count_obj (RegionUnion, Number2) connection (RegionUnion, ConnectedRegions) count_obj (ConnectedRegions, Number3)
Matlab笔记：将列向量直接赋值给行向量
NEWEVA__zzera22: 原来我的更新后的theta_ls K*1真的可以赋值给theta(pos_array)

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。