强化学习术语即概念理解|未持续更新

本人知识水平有限,希望各位探讨指正。

  1. 最大熵原理

最大熵原理其实就是指包含已知信息不做任何未知假设把未知事件当成等概率事件处理

骰子有6个面,你不知道下一个会是哪一面,你所知道的是骰子各面概率和为1(已知信息、约束条件)。
而在现实中,你知道骰子各面的概率是1/6(不做任何假设,未知事件做等概率处理
这时,你就知道最大熵是多少了。

若约束条件增加,其他的未知条件还做等概率处理(需要用条件极值求解)。

  1. 信息熵

一个系统的信息熵其实就是系统中每一个事件的概率乘以log概率,然后把所有事件相加后取负数。
因为概率总是在0-1之间,所以log后会小于0,取了负号以后熵就是正数了。
log如果以2为底数的话,信息熵的单位就是比特(bit),以e为底数的话,信息熵的单位就是奈特(nat),以10为底数的话,单位就是哈脱特(hat)。
信息熵
系统中事件发生的概率满足一切已知约束条件,不对任何未知信息做假设,也就是对于未知的,当作等概率处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值