强化学习+Unity仿真(五):训练与推理

前言

在训练之前,先用手动控制测试一下。根据前面的脚本可知,W、S、A、D分别代表向前后左右移动,E、C代表上下移动,上下箭头代表Pitch,左右箭头代表Yaw。
点击Play,用键盘控制蜂鸟采蜜。

素材

一、训练

1.准备配置文件

ML Agents内置了常用的强化学习算法如PPO、SAC等,如果用这些算法的话无需自己写实现过程,仅需准备好配置文件既可。配置文件中指定了算法所需参数的值。配置文件的格式会随工具包的版本变化,可在github项目config文件夹下找到各算法对应的配置文件。可在docs目录下Training-Configuration-File.md文件中找到对各参数的解释。

behaviors:
  Hummingbird:
    trainer_type: ppo
    hyperparameters:
      batch_size: 64
      buffer_size: 12000
      learning_rate: 0.0003
      beta: 0.001
      epsilon: 0.2
      lambd: 0.99
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
      normalize: true
      hidden_units: 128
      num_layers: 2
      vis_encode_type: simple
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    keep_checkpoints: 5
    max_steps: 500000
    time_horizon: 1000
    summary_freq: 12000

2.开始训练

  1. 打开Anaconda Prompt,激活在第二节中创建的环境;
  2. 转到配置文件所在目录下;
  3. 输入mlagents-learn 配置文件名.yaml --run-id=行为名,回车,出现如下状态,即连接Unity成功,点击Unity中Play按钮既可开始训练。
    在这里插入图片描述
  4. 点击Play按钮后,开始训练。
    在这里插入图片描述
    训练过程如下。

训练素材

3.查看奖励曲线变化

在训练过程中会在配置文件同级目录下生成一个results文件夹,不同版本可能会有差异,我的tfevents文件位于:results/Hummingbird/Hummingbird/目录下。重新打开一个Anaconda终端,同样激活上述环境。首先切换至results/Hummingbird/目录,然后在终端输入:tensorboard --logdir Hummingbird命令,出现:
在这里插入图片描述
复制其中的http://localhost:6006/在浏览器打开,即可看到训练过程中各指标的变化。
在这里插入图片描述

二、推理

再次点击Play按钮既可结束训练。在results/Hummingbird目录下可找到后缀为.onnx的文件。可将此文件拖拽到Unity中项目资源管理窗口里,然后再拖拽到Hummingbird属性检查器行为参数选项卡里的Model参数框里,如图所示。
在这里插入图片描述
同时将Behavior Type改为仅推理,点击Play按钮,此时由神经网络来控制智能体行动,效果如下。
由于上述配置文件里的参数未做过修改,不一定会收敛,且仅作为熟悉流程的演示,我在训练9轮后手动停止了训练,此时智能体基本不会学习到任何有用的策略。

推理

此外,为加快训练速度,可先将整个场景在不同的空间位置复制多个,然后开启训练。如图所示。
在这里插入图片描述

结束

至此,这个系列到此结束。该项目难度适中,智能体需考虑5自由度的运动。可基于此项目建立关于无人船或无人机的项目。这二者需要更复杂的力的模拟。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
回答: Unity是一款备受欢迎的游戏引擎,而ML-Agents是Unity中的一个插件,用于开发游戏和实现强化学习算法。Unity3D早就有了开发自己强化学习环境的想法,并且提供了相应的工具和示例项目。你可以使用Unity的ML-Agents插件来创建自己的强化学习智能体,并通过编写代码来定义智能体的行为和决策过程。你可以使用Unity的ML-Agents插件来处理传感器数据、执行动作,并通过训练算法来优化智能体的决策能力。在Unity中实现强化学习需要使用ML-Agents插件提供的API和功能,如Actuators来执行动作,Sensors来接收环境的状态信息。同时,Unity也在不断发展和探索使用深度学习方法来学习游戏行为,控制复杂的NPC行为和游戏动态等。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Unity强化学习之ML-Agents的使用](https://blog.csdn.net/tianjuewudi/article/details/121115480)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [unity3d ai学习_Unity AI –通过Q学习进行强化学习](https://blog.csdn.net/culiao6493/article/details/108642015)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值