使用PPO算法训练agent(train_ppo.py)
1、创建Carla环境
(1)连接Carla服务器和客户端,导入地图,定义天气(connection.py)
(2)环境具体内容定义(environment.py):
环境类最重要的两个函数是reset()和step()
2、导入agent(agent.py和ppo.py)
agent.py主要定义agent采取什么动作,以及采取某个动作获得什么回报
ppo.py主要定义演员-评论家网络的结构
3、开始训练
(1)设置训练结束条件:timestep < train_timesteps
(2)重置环境并获取观测