强化学习走起

在这里呢,我以一个人的人生来解释,当然涉及到佛教轮回的知识。

首先,每一个人都是智能体,从出生到死亡,我们不断做的就是从周围的环境中收集信息,知道自己的状态state,然后针对某种目的,采取行动action,采取行动后,我们就改变了自己的状态,从而再次根据状态采取行动,如此循环直到死亡,这就是一个episode了。
但是,我们通常的理解人死如灯灭,但是在强化学习中,是有轮回的,但是我们不会喝孟婆汤,于是我们再次出生是会有上一世的记忆。我们这一世,可以结合上一世的记忆,不断修正自己的思想(策略),知道在某种状态采取哪些action才可以达到自己的目标。

强化学习中的aciotn和state上文已经提到了,下面我们了解一下其余的概念。
(1)reward:奖赏说明的是在某个状态下采取某个行为的好坏。比如你初三了,接下来的action包括去市一中或者去县一中,所以采去市一中的reward肯定会比较大。
(2)价值函数v(s):价值函数(Value Function)代表了代理在某一个状态有多好。其在数值上等于代理从初始状态开始之后所受到的总期望奖励。
(3)策略函数:策略定义了代理在环境中的行为,代理会根据策略来决定到底要选择哪一种策略。比如在你的一生中的上学时光,上哪一个小学,上哪一个初中,上哪一高中,上哪一个大学,都是由策略函数决定的。
这里只是简单介绍了一下强化学习中的基本的一些知识,这些知识以后还会遇到,这里只是有一个浅显的理解,有一个简单的印象。
另外,欢迎大家指出其中的不足之处,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值