强化学习+Unity仿真(五)：训练与推理

最新推荐文章于 2025-04-07 23:37:23 发布

pingping_TEL

最新推荐文章于 2025-04-07 23:37:23 发布

阅读量968

点赞数 1

分类专栏： Unity+强化学习文章标签： unity 游戏引擎机器学习 c#

本文链接：https://blog.csdn.net/pingping_TEL/article/details/132233985

版权

Unity+强化学习专栏收录该内容

7 篇文章

订阅专栏

前言

在训练之前，先用手动控制测试一下。根据前面的脚本可知，W、S、A、D分别代表向前后左右移动，E、C代表上下移动，上下箭头代表Pitch，左右箭头代表Yaw。
点击Play，用键盘控制蜂鸟采蜜。

素材

一、训练

1.准备配置文件

ML Agents内置了常用的强化学习算法如PPO、SAC等，如果用这些算法的话无需自己写实现过程，仅需准备好配置文件既可。配置文件中指定了算法所需参数的值。配置文件的格式会随工具包的版本变化，可在github项目config文件夹下找到各算法对应的配置文件。可在docs目录下Training-Configuration-File.md文件中找到对各参数的解释。

behaviors:
  Hummingbird:
    trainer_type: ppo
    hyperparameters:
      batch_size: 64
      buffer_size: 12000
      learning_rate: 0.0003
      beta: 0.001
      epsilon: 0.2
      lambd: 0.99
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
      normalize: true
      hidden_units: 128
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 5
    max_steps: 500000
    time_horizon: 1000
    summary_freq: 12000

2.开始训练

打开Anaconda Prompt，激活在第二节中创建的环境；
转到配置文件所在目录下；
输入mlagents-learn 配置文件名.yaml --run-id=行为名，回车，出现如下状态，即连接Unity成功，点击Unity中Play按钮既可开始训练。
点击Play按钮后，开始训练。

训练过程如下。

训练素材

3.查看奖励曲线变化

在训练过程中会在配置文件同级目录下生成一个results文件夹，不同版本可能会有差异，我的tfevents文件位于：results/Hummingbird/Hummingbird/目录下。重新打开一个Anaconda终端，同样激活上述环境。首先切换至results/Hummingbird/目录，然后在终端输入：tensorboard --logdir Hummingbird命令，出现：
在这里插入图片描述
复制其中的http://localhost:6006/在浏览器打开，即可看到训练过程中各指标的变化。

二、推理

再次点击Play按钮既可结束训练。在results/Hummingbird目录下可找到后缀为.onnx的文件。可将此文件拖拽到Unity中项目资源管理窗口里，然后再拖拽到Hummingbird属性检查器行为参数选项卡里的Model参数框里，如图所示。
在这里插入图片描述
同时将Behavior Type改为仅推理，点击Play按钮，此时由神经网络来控制智能体行动，效果如下。
由于上述配置文件里的参数未做过修改，不一定会收敛，且仅作为熟悉流程的演示，我在训练9轮后手动停止了训练，此时智能体基本不会学习到任何有用的策略。