机器学习算法三:bagging及随机森林算法

在学习随机森林算法之前,首先需要对一些基础知识有一些了解。

1 信息、熵,信息增益及决策树

在学习任何跟决策树有关的算法时,都会接触到题目中的这几个概念,理解这几个概念有助于以后的学习,废话不多说。

1.1 信息

信息这个概念真的极其的抽象,看了很多博主的文章感觉还是理解不了,再看看香农的话,信息是用来消除随机不确定性的东西,更让人不知所云。
要理解信息的概念,就必须了解信息含量这个东西是如何去量化的,举个例子:小明说“明天NBA总决赛骑士VS勇士,我觉得骑士赢!”和小王说“明天NBA总决赛骑士VS勇士第四场,之前比分为3:0,我觉得骑士赢定了”。NBA总决赛谁会最终取得胜利这个不得而知,是一个不确定事件,但是相比于小明的话,小王的话显得更让人信服,因为小王提供了更多的信息,让一个不确定的事件变得似乎更确定了,所以信息的量化跟不确定性的变化趋势是相关的,当一个事件由不确定变得似乎确定时,说明提供给该事件的信息量得到了增加,如果提供的信息不影响事件的确定性,则说明信息量没有增加,比如:你说“明天太阳会从东边升起来”,就算你把这句话说一百遍,然后给我一堆解释为什么太阳要从东边升起,但是对于事件本身来说信息量没有丝毫的增加,因为这个事件本身就是确定的,任何话都不会改变这个事件的确定性。
那么这个不确定性的变化跟什么有关了?
1.跟事情的可能结果的数量有关
2.跟事件结果发生概率有关
我们该如何用数学公式来表示信息量呢?某类信息量的定义公式如下:

I(X=xi)=log2p(xi) I ( X = x i
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值