Q-learning算法汇总

https://blog.csdn.net/itplus/article/details/9361915经典的六个房间解释算法
http://blog.sina.com.cn/s/blog_151a90a3b0102xg0p.html上面的可复制版本
https://www.jianshu.com/p/29db50000e3f 上面算法的python实现
https://blog.csdn.net/weixin_32759777/article/details/104163272?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1上面算法的另一个python实现
https://blog.csdn.net/count_on_me/article/details/82952391?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task上面算法的matlab实现(没试过不知道是否可行)
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-1-A-q-learning/莫凡简单带你了解一下
https://blog.csdn.net/qq_36124802/article/details/79882269莫凡的小案例的代码详细注释版本
https://blog.csdn.net/Fitz_p/article/details/82975129?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task今天给大家分享如何用Q_learning算法来实现走迷宫,我们的红色方块会一次次的尝试不同的格子,直到落入黑格子,获得惩罚1;或者走进黄格子,获得奖励1为止。每一次游戏都会更新Q_table的权重,以实现红色方块下一次能够更加快速的找到黄格子。代码注释版本

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值