一个特殊例子:井字棋

对于价值函数,“井字棋”的例子中,对于每一个游戏状态(不同棋盘状态)构建一个价值函数表格V(st),值函数V(st)表示了对获胜概率的估计。这是一个3*3的井字棋,如果智能体实现三个子连在一起,则当前状态获胜概率为1,如果对方三个子连在一起,则该状态的获胜概率为0,其余状态的初始价值都为0.5.

利用价值函数的差分更新公式

每个贪心动作(获胜概率最高的动作)过后,对早先的状态的价值进行更新,这样每个状态的价值都会收到后面状态的价值的影响,即将最后获得的高价值向前面经历过的状态进行信度分配,通过实验表明,虽然强化学习没有对手的模型,也不能显式搜索所有可能的未来状态和动作序列,但是却显示出了规划和预测能力,这和它的价值函数的差分更新公式有很大关系。所以我们一直说价值函数是强化学习的核心问题。

但是“井字棋”问题比较特殊,它与围棋不同,对于每一步没有设置即时回报(围棋每一步吃掉对方的子都是有回报值的,这个称为reward,而不是value),只有在每一幕结束时产生收益。对于该问题,只要能够遍历到所有状态,就可以收敛到最优解。但是对于无法遍历所有解的情况,该如何解决这个问题?神经网络的泛化能力+强化学习就在围棋对弈中很好得解决了这个问题,那么还有什么模型可以替代神经网络呢?需要我们进一步思考~~

当然强化学习对于连续时间的决策问题、动作空间无限连续问题、回报实时获取的问题都是适用的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值