增强学习学习新得

博主分享了一周学习增强学习的心得体会,通过对比不同资源加深理解,逐步掌握Q-learning和Actor-Critic算法。了解到在强化学习中,时间序列的记忆方式以及LSTM的重要性。还探讨了AlphaGo Zero的学习过程,对人类经验的有效性提出了思考。
摘要由CSDN通过智能技术生成

增强学习学习的新得

这个其实我也没有打错字啦,就是刚学一周左右的增强学习然后过来总结下收获。一周历程就是图书馆借了几本书然后就看,运气不错,图书馆的书还不错,学习一个新的东西最好还是多有几本同类讲解相同知识的书比较好,因为不同逻辑可以让你理解更加到位一点,然后就是互补。先看了差不多的李宏毅大哥的增强学习系列,感觉是到位了,公式推导也很不错,但是我英语记不住单词功底有点差,就很多细节不会,大致有个feeling,但是还是有疑惑的,因为我之前没有实现过哪怕一个例子所以就手和脑分开了。然后我去看莫烦的增强学习,这个就更直观了,帮我对于增强学习最基础的qlearning落实了,然后直观明白了一些概念,毕竟李宏毅教导的学生基础比较好,听完他的有点空中楼阁,我菜。然后看了一个pytorch的实现的DQN玩那种简单游戏的,这个是另外B站找的,因为我不会tensorflow所以没继续看莫烦的代码。后面我又开始跟着第三个老师学,这个简直清晰,没有一句废话,刚开始把增强学习所有的概念讲完,就更加有数,建立了更多知识节点的逻辑。这很关键。

[第三个老师的视频网址,前面李宏毅还有莫烦很容易搜到的所以不附加链接了](深度强化学习(全)_哔哩哔哩_bilibili

然后学到actor-critic真正弄懂了原理,和之前李宏毅的直觉对应起来了,一个策略网络一个价值网络,然后其实就是Q V U之间关系弄懂,然后明白激励到底怎么搞,然后期末结束,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值