![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RL algorithm
文章平均质量分 92
Mengy Sue
这个作者很懒,什么都没留下…
展开
-
【强化学习笔记】(5) SAC
Soft Actor Critic (SAC) 是一种off-policy的算法,结合随机策略优化与DDPG原创 2024-05-09 16:52:57 · 891 阅读 · 0 评论 -
【强化学习笔记】(4) TD3
TD3是一种off-policy算法,用于连续的动作空间原创 2024-05-08 11:50:19 · 771 阅读 · 0 评论 -
【强化学习笔记】(3) DDPG
算法是一种on-line的深度学习算法,可以用于连续的任务控制比如控制机器人完成任务。原创 2024-05-07 21:52:57 · 827 阅读 · 0 评论 -
【强化学习笔记】(1) Q-learning, Sarsa
强化学习算法笔记原创 2024-04-25 16:47:43 · 571 阅读 · 0 评论