![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 93
BUAA小乔
本科:BIT
硕士:BUAA
传统工科自学编程之路。
展开
-
强化学习(四)--DDPG算法
强化学习(四)--DDPG算法1. DDPG算法2. DDPG算法代码3. DDPG算法的效果展示上一篇文章介绍了PG算法大类的Reinforce算法,它是一种基于MC更新方式的算法,而它的另一大类是基于Actor-Critic算法,它是一种基于TD更新方式的算法。这一篇文章就来介绍AC算法中应用最多的DDPG算法,它可以直接输出确定性的连续形动作。1. DDPG算法详细的算法介绍还是推荐科老师的课程(公开课地址),TD更新方式是指每一个episode的每一个step都进行算法的更新。DDPG算法有原创 2021-04-08 12:29:39 · 5603 阅读 · 1 评论 -
强化学习(三)--Reinforce算法
强化学习(三)--Reinforce算法1. Reinforce算法2. Reinforce算法的代码实现2.1 Main函数的实现2.2 神经网络的搭建(Net类的实现)2.3 测试函数(test_episode函数的实现)2.4 RF类的实现2.4.1 choose_action 函数2.4.2 store_transition函数2.4.3 learn函数3. Reinforce算法的效果展示前两节的Q-learning和DQN算法都是强化学习中的Value-based的方法,它们都是先经过Q值来选原创 2021-03-30 15:16:10 · 12690 阅读 · 0 评论 -
(强化学习(二)--DQN算法
强化学习(二)--DQN算法1. DQN算法1.1 Experience replay (经验回放)1.2 Fixed Q target (固定Q目标)1.3 神经网络的LOSS函数2. DQN的代码实现2.1 代码的整体框架2.2 主函数2.3 神经网络的构建(Net类的实现)2.4 DQN类的实现2.4.1 choose_action 和 predict函数2.4.2 store_transition函数2.4.3 learn函数2.5 测试函数(test_episode函数的实现)3. DQN算法效果原创 2021-03-29 22:24:31 · 3245 阅读 · 1 评论 -
强化学习(一)--Sarsa与Q-learning算法
强化学习(一)--Sarsa与Q-learning算法1. SARSA算法2. Q-learning算法3. 代码实现3.1主函数3.2训练及测试函数3.3 SarsaAgent类的实现3.3.1 sample函数3.3.2 predict函数3.3.3 learn函数3.4 Q-learning算法的改变最近实验室有一个项目要用到强化学习,在这开个新坑来记录下强化学习的学习过程。第一节就先来最简单的基于表格型的RL算法,包括经典的Sarsa和Q-learning算法。由于时间原因,关于算法的理论知识原创 2021-03-15 19:52:53 · 2227 阅读 · 0 评论