强化学习学习记录一

最新推荐文章于 2024-03-06 17:00:00 发布

LoveBc0214

最新推荐文章于 2024-03-06 17:00:00 发布

阅读量447

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42983054/article/details/112055927

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

根据莫烦的视频写的记录，本身视频就比较基础，自己也属于零基础吧。所以记录的很low
莫烦视频
 莫烦Python：这里有他的各种教程，包括强化学习，tensorflow, pandas, numpy等。也很基础，个人觉得比较适合零基础的人观看。

强化学习（Reinforcement learning）

不断的尝试到达目标，类似于人类上课，需要老师。但是这个老师不给对错(这就是监督学习了吧)，只给行为打分，而强化学习的目的就是避免低分行为。尽可能的得到高分。最后的标签都是自己学来了，并不是人为打标签的。

方法分类

按照是否理解环境分类：
不理解环境 model-free RL
理解环境 model-based RL
这两者就是第二种多了一个建模的过程，能够用于model-free的方法都能够用于model-based方法。 .

基于概率的 policy-based最后输出都有可能，但是概率不一样 policy Gradient
基于价值的value-based最后输出的价值最高的，是确定的 Q-learning, Sarsa
对于连续的动作，基于价值的就无能为力，只能用基于概率的。这两个结合是Actor-Critic方法

回合更新，在结束后更新 policy gradient等
单步更新，在过程中一步一步更新，不用等待结束 Q-learning等。

在线学习 Sarsa Sarsa(lamda)
离线学习 Q -learning DQN

需要准备

python以及其中的Numpy, Pandas库
Tkinter，或者是openAI gym （搭建模拟环境的）后者更好，但是目前对win不太友好
tensorflow（pytorch应该也可）强化学习和深度学习结合时需要搭建网络

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习学习记录一

根据莫烦的视频写的记录，本身视频就比较基础，自己也属于零基础吧。所以记录的很low莫烦视频莫烦Python：这里有他的各种教程，包括强化学习，tensorflow, pandas, numpy等。也很基础，个人觉得比较适合零基础的人观看。强化学习（Reinforcement learning）不断的尝试到达目标，类似于人类上课，需要老师。但是这个老师不给对错(这就是监督学习了吧)，只给行为打分，而强化学习的目的就是避免低分行为。尽可能的得到高分。最后的标签都是自己学来了，并不是人为打标签的。方法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。