强化学习的基本概念

强化学习中两个最重要的要素就是:智能体与环境。其中环境是智能体所处的客观世界,所谓的客观是指该世界存在稳定的规律,这些规律一方面推动着世界自身的演化,另一方面给予智能体反馈;而智能体则是一个主观的利己者,所谓的主观是指它会不断改善自己的行为使得环境给予其的反馈最大。

现在来想象一个强化学习场景:有一个智能体现在被困于密室,该密室中除了三个按钮什么都没有。最开始的时候,智能体对于这个密室没有任何的先验知识,它只能随便按按来尝试一下每个按钮有什么作用,最后它发现这三个按钮分别是:(1)生活物资钮:在房间内随机生成一些生活物资;(2)重置房间钮:将房间内除智能体外的物品全部清空;(3)雷击钮:一按就会触电身亡。于是,智能体为了长期在房间内生存,最终学会了当房间内生活垃圾过多时按一下充值环境钮,当自己饿了无聊了就按一下生活物资钮,为了给自己过于单调的生活增添一些乐趣,它偶尔也会随便按一个按钮看看按钮的效果会不会有什么变化。

现在来把上面提到的概念全部替换成强化学习里面的术语:

状态空间(state space):状态就是对于环境和智能体的描述,比如给这个房间照一张相就可以代表当前房间内的状态,而状态空间就是这张照片所有可能的图像内容的集合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值