决策树的几点注记

1、对每个特征,有两种特征值:“是”与“否”,数学上,0与1。对特征进行划分,实质上是对特征值进行划分。在这个特征下,属于“是”的到一边,属于“否”的到另一边。

2、如果在该数据集下,所有样本的类别都是一样的,则划分停止。

3、每次划分,会产生两个子数据集 。信息增益是子数据集熵的加权平均与母数据集的熵之差。

4、如何从不熟悉的数据集中提炼出“是否”的问答规则。决策树的核心。

5、熵(entropy)衡量事物的混乱程度。事物越有序,熵越低;越无序,熵越高。可以将划分前的数据集理解为无序的状态,为了使得信息增益最大,则划分后的数据集应该是越有序越好。其差值自然越大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值