机器学习day4 机器学习实战决策树的原理ID3

今天学习了机器学习关于决策树的内容,有个简单的测试实例明天上午实现写上来,今晚先写实现原理和个人的想法。

决策树很像if else 的结构,不过分支不一定只有两个,可能会根据特性分成很多分支。叶子节点为最后的分类集合,其余节点为

待分类的数据集。

要点1:如何选择特性进行分类?

要点2:如果特性都在之前分类过但是叶子节点还需要继续分类?

1:首先介绍熵的概念,熵代表数据的混乱程度,如果全部数据基本上为某一类,则熵近乎为0,因为数据不够混乱,若每一类都分

布均匀则熵会很大,那我们分类就选择一种特性可以令熵小的,因为这种特性数据不混乱,特性的每一个子类都有符合的数据标签,

个子类都可以代表大部分同类数据标签,这样的特性具有代表性,能引领数据标签更好的分类,所以选择熵小的(语言表述有点问

题,表达能力一般。。。)。

形象的理解:一堆混乱的数据,我们争取把他们区分开,如果按照混乱度高的特性进行分类,则分完之后数据集一样混乱,我们还需要更多的努力进行分类,这一次的分类没起到任何作用,只是增加了算法复杂度。如果我们按照混乱程度最低的特性分类之后,数据集划分的效果最好,同类数据主要聚集在同一类,方便了下一步的继续分类,降低了算法复杂度,所以选熵降低最大的,也就是信息增益最大的。

计算香农熵和信息增益就不在此赘述了。根据熵减去特性的概率乘熵值之和得到该特性的信息增益,我们选择信息增益大的特性作

为分类,再递归进行分类过程。

2:特性分完后进行投票,类似于KNN算法的投票机制,在数据集中标签数量最多的设为该数据集的类别,并且设为叶节点。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值