百度飞桨强化学习7日心得

最新推荐文章于 2022-07-27 21:48:44 发布

he_eeeeeeeeeee

最新推荐文章于 2022-07-27 21:48:44 发布

阅读量299

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43117155/article/details/106979186

版权

学习主要依赖框架和库：
pip install gym
pip install paddlepaddle
pip install parl==1.3.1

学习内容：
Sarsa
”SARSA“ 五个字母是当前 S (状态), A(行动), R(奖励) 与下一步S’(状态) A’(行动) 的组合，即我们不仅需要知道当前的S, A, R 还需要知道下一步的 S’ 和 A‘。
更新公式：
在这里插入图片描述
Q-learning
更新公式：

其中α为学习速率（learning rate），γ为折扣因子（discount factor）。根据公式可以看出，学习速率α越大，保留之前训练的效果就越少。折扣因子γ越大，所起到的作用就越大。

DQN
DQN的行为值函数逼近网络。与线性逼近不同，线性逼近指值函数由一组基函数和一组与之对应的参数相乘得到，值函数是参数的线性函数。而DQN的行为值函数利用神经网络逼近，属于非线性逼近。

PG(Policy Gradient)
Policy Gradient不通过误差反向传播，它通过观测信息选出一个行为直接进行反向传播，当然出人意料的是他并没有误差，而是利用reward奖励直接对选择行为的可能性进行增强和减弱，好的行为会被增加下一次被选中的概率，不好的行为会被减弱下次被选中的概率。

DDPG
DDPG是由PG发展来的
我们总结下DDPG 4个网络的功能定位：

Actor当前网络：负责策略网络参数θθ的迭代更新，负责根据当前状态SS
选择当前动作AA，用于和环境交互生成S′,RS′,R.
Actor目标网络：负责根据经验回放池中采样的下一状态S′S′选择最优下一动作A′A′.
网络参数θ′θ′定期从θθ复制。
Critic当前网络：负责价值网络参数ww的迭代更新，负责计算负责计算当前Q值Q(S,A,w)Q(S,A,w).目标Q值yi=R+γQ′(S′,A′,w′)yi=R+γQ′(S′,A′,w′)
Critic目标网络：负责计算目标Q值中的Q′(S′,A′,w′)Q′(S′,A′,w′)部分.网络参数w′w′
定期从ww复制。

学习感谢：
我是没学习过RL的，但通过这次七日的学习，我对强化学习有了一定的认知，在作业中自己设计网络结构和调超参数，学到了很多，感谢百度飞桨深度学习学院给与的这次机会。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

he_eeeeeeeeeee CSDN认证博客专家 CSDN认证企业博客

码龄6年

14: 原创

118万+: 周排名

26万+: 总排名

2万+: 访问

: 等级

248: 积分

209: 粉丝

67: 获赞

43: 评论

198: 收藏

私信

关注

热门文章

最新评论

YOLOV7训练自己的数据集，我先来试试火（VisDrone数据集）
代码杀手-: 你好，请问你的问题解决了嘛？我用yolov8s跑结果只有0.301
NLP模型——UTC
xinggcs: 这个版本太新了代码名称都不匹配
Tracking(目标跟踪):Mot(多目标跟踪系列)-FairMot,快速入门代码、小白都看懂
weixin_52192402: 你好大哥这个是什么问题 (FairMOT) fcc@fcc-Lenovo-XiaoXin-15IIL-2020:~/bishe/FairMOT-master/src$ python demo.py mot --load_model ../models/fairmot_dla34.pth --conf_thres 0.4 Fix size testing. training chunk_sizes: [12] The output will be saved to /home/fcc/bishe/FairMOT-master/src/lib/../../exp/mot/default heads {'hm': 1, 'wh': 4, 'id': 128, 'reg': 2} 2024-04-17 11:22:20 [INFO]: Starting tracking... Lenth of the video: 1500 frames Creating model... loaded ../models/fairmot_dla34.pth, epoch 30 2024-04-17 11:22:21 [INFO]: Processing frame 0 (100000.00 fps) error in modulated_deformable_im2col_cuda: invalid device function Traceback (most recent call last): File "demo.py", line 43, in <module> demo(opt) File "demo.py", line 30, in demo eval_seq(opt, dataloader, 'mot', result_filename, File "/home/fcc/bishe/FairMOT-master/src/track.py", line 90, in eval_seq online_targets = tracker.update(blob, img0) File "/home/fcc/bishe/FairMOT-master/src/lib/tracker/multitracker.py", line 253,
YOLOV7训练自己的数据集，我先来试试火（VisDrone数据集）
m0_69533110: 您好，我想问一下您用的是谁的yolov7源码，我用的是https://github.com/WongKinYiu/yolov7他的源码，结果visdrone2019 300轮结果只有0.306，是有什么需要调整的参数吗
2024AIGC最新算法模型,震惊SORA出现，文字生成视频
CSDN-Ada助手: 恭喜您发布了这么引人瞩目的博客！2024AIGC最新算法模型和SORA出现的消息真是让人充满期待。文字生成视频也是一个很有创意的点子。希望您能继续保持创作的热情和精神，不断探索和创新。或许下一步可以尝试结合更多的多媒体元素，让您的内容更加生动和有趣。期待您更多精彩的作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。