增强学习学习新得

最新推荐文章于 2024-08-14 23:30:40 发布

懒懒的爬虫洪

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量106

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51804522/article/details/117599771

版权

博主分享了一周学习增强学习的心得体会，通过对比不同资源加深理解，逐步掌握Q-learning和Actor-Critic算法。了解到在强化学习中，时间序列的记忆方式以及LSTM的重要性。还探讨了AlphaGo Zero的学习过程，对人类经验的有效性提出了思考。

摘要由CSDN通过智能技术生成

增强学习学习的新得

这个其实我也没有打错字啦，就是刚学一周左右的增强学习然后过来总结下收获。一周历程就是图书馆借了几本书然后就看，运气不错，图书馆的书还不错，学习一个新的东西最好还是多有几本同类讲解相同知识的书比较好，因为不同逻辑可以让你理解更加到位一点，然后就是互补。先看了差不多的李宏毅大哥的增强学习系列，感觉是到位了，公式推导也很不错，但是我英语记不住单词功底有点差，就很多细节不会，大致有个feeling，但是还是有疑惑的，因为我之前没有实现过哪怕一个例子所以就手和脑分开了。然后我去看莫烦的增强学习，这个就更直观了，帮我对于增强学习最基础的qlearning落实了，然后直观明白了一些概念，毕竟李宏毅教导的学生基础比较好，听完他的有点空中楼阁，我菜。然后看了一个pytorch的实现的DQN玩那种简单游戏的，这个是另外B站找的，因为我不会tensorflow所以没继续看莫烦的代码。后面我又开始跟着第三个老师学，这个简直清晰，没有一句废话，刚开始把增强学习所有的概念讲完，就更加有数，建立了更多知识节点的逻辑。这很关键。

[第三个老师的视频网址，前面李宏毅还有莫烦很容易搜到的所以不附加链接了](深度强化学习（全）_哔哩哔哩_bilibili

然后学到actor-critic真正弄懂了原理，和之前李宏毅的直觉对应起来了，一个策略网络一个价值网络，然后其实就是Q V U之间关系弄懂，然后明白激励到底怎么搞，然后期末结束，

最低0.47元/天解锁文章

懒懒的爬虫洪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
增强学习学习新得

增强学习学习的新得这个其实我也没有打错字啦，就是刚学一周左右的增强学习然后过来总结下收获。一周历程就是图书馆借了几本书然后就看，运气不错，图书馆的书还不错，学习一个新的东西最好还是多有几本同类讲解相同知识的书比较好，因为不同逻辑可以让你理解更加到位一点，然后就是互补。先看了差不多的李宏毅大哥的增强学习系列，感觉是到位了，公式推导也很不错，但是我英语记不住单词功底有点差，就很多细节不会，大致有个feeling，但是还是有疑惑的，因为我之前没有实现过哪怕一个例子所以就手和脑分开了。然后我去看莫烦的增强学习，这
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。