一、学习内容
5.连续动作空间上求解RL
5.1连续动作空间
离散和连续动作跟环境有关:
可分别采用随机性策略和确定性策略:
实践中可分别用sample函数和tanh函数:
DDPG(Deep Deterministic Policy Gradient)的来源:
DDPG可看做DQN的扩展版本,添加了策略网络,使用了RL中的Actor-Critic架构
DQN有2条经验的:target网络,以及经验回放
DDPG里面也用了相同的方式来稳定训练,算法如下:
5.2DDPG代码与总结
DDPG的算法结构整体如下:
model文件中算法如下:
algorithm文件中算法如下:
1)critic网络更新:
2)actor网络更新:
2)target网络更新:
agent文件中算法如下(这里就不细说了,还是PARL的框架:)):
训练过程(以CartPole为例):
DDPG的总结如下:
5.3大作业与创意赛环境
这里面主要展示一些RL常用的模拟环境,大家可以尝试一下:)
1)PARL中的四轴飞行器环境(收敛时间大概7-8小时)
2)电梯环境
3)简单弹跳和接球游戏
4)简单的游戏
5)机械臂、股票预测、飞行器等环境
6)机械臂环境
7)交通灯信号控制环境
最后,回顾下课程大纲:
给了个后续学习的推荐材料: