强化学习+Unity仿真(五):训练与推理

前言

在训练之前,先用手动控制测试一下。根据前面的脚本可知,W、S、A、D分别代表向前后左右移动,E、C代表上下移动,上下箭头代表Pitch,左右箭头代表Yaw。
点击Play,用键盘控制蜂鸟采蜜。

素材

一、训练

1.准备配置文件

ML Agents内置了常用的强化学习算法如PPO、SAC等,如果用这些算法的话无需自己写实现过程,仅需准备好配置文件既可。配置文件中指定了算法所需参数的值。配置文件的格式会随工具包的版本变化,可在github项目config文件夹下找到各算法对应的配置文件。可在docs目录下Training-Configuration-File.md文件中找到对各参数的解释。

behaviors:
  Hummingbird:
    trainer_type: ppo
    hyperparameters:
      batch_size: 64
      buffer_size: 12000
      learning_rate: 0.0003
      beta: 0.001
      epsilon: 0.2
      lambd: 0.99
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
      normalize: true
      hidden_units: 128
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 5
    max_steps: 500000
    time_horizon: 1000
    summary_freq: 12000

2.开始训练

  1. 打开Anaconda Prompt,激活在第二节中创建的环境;
  2. 转到配置文件所在目录下;
  3. 输入mlagents-learn 配置文件名.yaml --run-id=行为名,回车,出现如下状态,即连接Unity成功,点击Unity中Play按钮既可开始训练。
    在这里插入图片描述
  4. 点击Play按钮后,开始训练。
    在这里插入图片描述
    训练过程如下。

训练素材

3.查看奖励曲线变化

在训练过程中会在配置文件同级目录下生成一个results文件夹,不同版本可能会有差异,我的tfevents文件位于:results/Hummingbird/Hummingbird/目录下。重新打开一个Anaconda终端,同样激活上述环境。首先切换至results/Hummingbird/目录,然后在终端输入:tensorboard --logdir Hummingbird命令,出现:
在这里插入图片描述
复制其中的http://localhost:6006/在浏览器打开,即可看到训练过程中各指标的变化。
在这里插入图片描述

二、推理

再次点击Play按钮既可结束训练。在results/Hummingbird目录下可找到后缀为.onnx的文件。可将此文件拖拽到Unity中项目资源管理窗口里,然后再拖拽到Hummingbird属性检查器行为参数选项卡里的Model参数框里,如图所示。
在这里插入图片描述
同时将Behavior Type改为仅推理,点击Play按钮,此时由神经网络来控制智能体行动,效果如下。
由于上述配置文件里的参数未做过修改,不一定会收敛,且仅作为熟悉流程的演示,我在训练9轮后手动停止了训练,此时智能体基本不会学习到任何有用的策略。

推理

此外,为加快训练速度,可先将整个场景在不同的空间位置复制多个,然后开启训练。如图所示。
在这里插入图片描述

结束

至此,这个系列到此结束。该项目难度适中,智能体需考虑5自由度的运动。可基于此项目建立关于无人船或无人机的项目。这二者需要更复杂的力的模拟。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值