机器学习算法——决策树——学习总结

决策树是一种基本的分类和回归方法。本次主要学习其中分类方法的应用。

决策树是一种树结构,包含内部结点、叶子结点。可以认为是if-then规则的集合。内部结点表示一个特征或属性,每个内部结点的分支代表其具体的特征值或属性值。叶子结点表示一个具体的类。

在讲解决策树构建之前,先讲一下熵的概念。熵用来描述一个集合的混乱程度(就和我们在化学中提到的一样)。在信息论与概率统计中,熵表示随机变量不确定性的度量。给定一个取有限个值的离散随机变量X,则X的熵为H(X)。
H ( X ) = − ∑ i = 1 n p i l o g 2 p i n 表 示 X 有 n 种 取 值 可 能 , p i 表 示 X 取 第 i 种 值 得 概 率 , 令 0 l o g 0 = 0 , l o g 以 2 为 底 H(X) = - \sum_{i=1}^{n}p_{i}log_{2}p_{i} \\ n表示X有n种取值可能,p_{i}表示X取第i种值得概率,令0log0 = 0,log以2为底 H(X)=i=1npilog2pinXnpiXi0log0=0log2
例:
集合X = {a,a,b,b,b}
p 1 = 2 / 5 = 0.4 , p 2 = 3 / 5 = 0.6 , H ( X ) = − 0.4 l o g 2 0.4 − 0.6 l o g 2 0.6 p_{1} = 2/5=0.4,p_{2} = 3/5=0.6,H(X) = -0.4log_{2}0.4 - 0.6log_{2}0.6 p1=2/5=0.4,p2=3/5=0.6,H(X)=0.4log20.40.6log20.6

在实际应用中,针对某个数据集D,H(D)的中D通常表示D中的分类结果
熵越大,代表随

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值