前言
在训练之前,先用手动控制测试一下。根据前面的脚本可知,W、S、A、D分别代表向前后左右移动,E、C代表上下移动,上下箭头代表Pitch,左右箭头代表Yaw。
点击Play,用键盘控制蜂鸟采蜜。
素材
一、训练
1.准备配置文件
ML Agents内置了常用的强化学习算法如PPO、SAC等,如果用这些算法的话无需自己写实现过程,仅需准备好配置文件既可。配置文件中指定了算法所需参数的值。配置文件的格式会随工具包的版本变化,可在github项目config文件夹下找到各算法对应的配置文件。可在docs目录下Training-Configuration-File.md文件中找到对各参数的解释。
behaviors:
Hummingbird:
trainer_type: ppo
hyperparameters:
batch_size: 64
buffer_size: 12000
learning_rate: 0.0003
beta: 0.001
epsilon: 0.2
lambd: 0.99
num_epoch: 3
learning_rate_schedule: linear
network_settings:
normalize: true
hidden_units: 128
num_layers: 2
vis_encode_type: simple
reward_signals:
extrinsic:
gamma: 0.99
strength: 1.0
keep_checkpoints: 5
max_steps: 500000
time_horizon: 1000
summary_freq: 12000
2.开始训练
- 打开Anaconda Prompt,激活在第二节中创建的环境;
- 转到配置文件所在目录下;
- 输入
mlagents-learn 配置文件名.yaml --run-id=行为名
,回车,出现如下状态,即连接Unity成功,点击Unity中Play按钮既可开始训练。
- 点击Play按钮后,开始训练。
训练过程如下。
训练素材
3.查看奖励曲线变化
在训练过程中会在配置文件同级目录下生成一个results文件夹,不同版本可能会有差异,我的tfevents文件位于:results/Hummingbird/Hummingbird/目录下。重新打开一个Anaconda终端,同样激活上述环境。首先切换至results/Hummingbird/目录,然后在终端输入:tensorboard --logdir Hummingbird
命令,出现:
复制其中的http://localhost:6006/
在浏览器打开,即可看到训练过程中各指标的变化。
二、推理
再次点击Play按钮既可结束训练。在results/Hummingbird目录下可找到后缀为.onnx的文件。可将此文件拖拽到Unity中项目资源管理窗口里,然后再拖拽到Hummingbird属性检查器行为参数选项卡里的Model参数框里,如图所示。
同时将Behavior Type改为仅推理,点击Play按钮,此时由神经网络来控制智能体行动,效果如下。
由于上述配置文件里的参数未做过修改,不一定会收敛,且仅作为熟悉流程的演示,我在训练9轮后手动停止了训练,此时智能体基本不会学习到任何有用的策略。
推理
此外,为加快训练速度,可先将整个场景在不同的空间位置复制多个,然后开启训练。如图所示。
结束
至此,这个系列到此结束。该项目难度适中,智能体需考虑5自由度的运动。可基于此项目建立关于无人船或无人机的项目。这二者需要更复杂的力的模拟。