机器学习之sklearn工具包(决策树与随机森林)

决策树

决策树是基于信息论提出的概念,划分原则是将原本无序的数据变得更加有序。

信息熵的概念

信息熵是指信息的不确定性,是对信息不确定性的度量。

信息熵的计算公式

在这里插入图片描述

信息增益

信息增益表示的是原来的数据在没有按照任何属性划分时的熵与按照某一属性A进行划分后的信息熵的差值。
在这里插入图片描述

信息熵的计算

在这里插入图片描述

import numpy as np
# 判断账号是否真实:3 no(0.3)7 yes(0.7)
# 不进行划分,计算信息熵
info_D=0.3*np.log2(1/0.3)+0.7*np.log2(1/0.7)
print(info_D)

# 建立决策树,对目标值进行划分
# 三个属性:日志密度、好友密度、是否真实头像
# 使用日志密度进行决策树的构建
# 3s  0.3 ----->2 no  1 yes
# 4m  0.4 ----->1 no  3 yes
# 3l  0.3 ----->3 yes

info_L_D=0.3*(2/3*np.log2(3/2)+1/3*np.log2(3))+0.4*(0.25*np.log2(4)+0.75*np.log2(4/3))+
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值