Matlab强化学习——部署策略

以下内容全来自Matlab官方教程,在此仅作为自己的学习笔记。

当 agent 训练完成后,我们可以生成代码去部署最优策略,可以生成:

  • 使用 GPU Coder 的深度神经网络策略的CUDA代码
  • 使用 MATLAB Coder 的表格、深度神经网络或线性基函数策略的C/C++代码

支持代码生成的条件

在任何输入路径上使用前馈神经网络的agent,前提是支持所有使用的层。对于使用循环神经网络(RNN)的连续动作PG, AC, PPO, 和SAC 的 agent 不支持代码生成。

使用GPU Coder生成代码

示例可见

第一步:加载训练好的 agent

load('MATLABCartpolePG.mat','agent')

第二步:为 agent 创建一个策略评估函数

generatePolicyFunction(agent)

该命令创建了包含策略函数的 evaluatePolicy.m 文件,包含训练好的深度神经网络 actor 的agentData.mat 文件。对于给定的observation,策略函数使用actor网络评估每个潜在action的概率,然后策略函数根据这些概率随机选择一个action。

第三步:生成一个CUDA兼容的MEX函数,配置代码生成函数来创建一个CUDA兼容的C++ MEX函数

cfg = coder.gpuConfig('mex');
cfg.TargetLang = 'C++';
cfg.DeepLearningConfig = coder.DeepLearningConfig('cudnn');

第四步:为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。

argstr = '{ones(4,1)}';

第五步:使用 codegen 函数生成代码

codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');

该命令生成了 MEX 函数 evaluatePolicy_mex

使用MATLAB Coder生成代码

使用MATLAB Coder,我们可以生成:

  • 使用Q表、值表或线性基函数的C/C++代码
  • 使用深度神经网络的C++代码,但使用循环神经网络(RNN)的连续动作PG、AC、PPO和SAC的agent不支持代码生成

在不使用任何第三方库的情况下生成深度神经网络策略的C代码

示例可见

第一步:加载训练好的agent

load('MATLABCartpolePG.mat','agent')

第二步:为agent创建一个策略评估函数

generatePolicyFunction(agent)

该命令创建了包含策略函数的 evaluatePolicy.m 文件,包含训练好的深度神经网络 actor 的agentData.mat 文件。对于给定的observation,策略函数使用actor网络评估每个潜在action的概率,然后策略函数根据这些概率随机选择一个action。

第三步:配置代码生成功能,生成适合构建MEX文件的代码

cfg = coder.config('mex');

第四步:在配置对象上,将目标语言设置为C++,将DeepLearningConfig设置为“none”,没有使用任何第三方库

cfg.TargetLang = 'C';
cfg.DeepLearningConfig = coder.DeepLearningConfig('none'); 

第五步:为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。

argstr = '{ones(4,1)}';

第六步:使用 codegen 函数生成代码

codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');

该命令为包含深度神经网络actor的策略梯度agent生成C++代码

在使用第三方库情况下生成深度神经网络策略的C++代码

示例可见

第一步:加载训练好的agent

load('MATLABCartpolePG.mat','agent')

第二步:为agent创建一个策略评估函数

generatePolicyFunction(agent)

该命令创建了包含策略函数的 evaluatePolicy.m 文件,包含训练好的深度神经网络 actor 的agentData.mat 文件。对于给定的observation,策略函数使用actor网络评估每个潜在action的概率,然后策略函数根据这些概率随机选择一个action。

第三步:配置代码生成功能,生成适合构建MEX文件的代码

cfg = coder.config('mex');

第四步:在配置对象上,将目标语言设置为C++,将DeepLearningConfig设置为“mkldnn”,该选项使用了用于深度神经网络的Intel 数学内核库(Intel MKL-DNN)生成代码

cfg.TargetLang = 'C++';
cfg.DeepLearningConfig = coder.DeepLearningConfig('mkldnn'); 

第五步:为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。

argstr = '{ones(4,1)}';

第六步:使用 codegen 函数生成代码

codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');

该命令为包含深度神经网络actor的策略梯度agent生成C++代码

生成Q表策略的C代码

示例可见

第一步:加载训练好的agent

load('basicGWQAgent.mat','qAgent')

第二步:为agent创建一个策略评估函数

generatePolicyFunction(qAgent)

该命令创建了包含策略函数的evaluatePolicy.m文件,包含训练好的Q表值函数的agentData.mat 文件。对于给定的observation,策略函数使用Q表查找每个潜在action的值函数,然后策略函数选择价值函数最大的动作。

第三步:为策略函数设置一个输入样例,这里是一个单一的一维观测(属于一个离散的可能值集)

argstr = '{[1]}';

第四步:配置codegen函数以生成适合于静态库的可嵌入C代码,并将输出文件夹设置为buildFolder

cfg = coder.config('lib');
outFolder = 'buildFolder';

第五步:使用 codegen 函数生成C代码

codegen('-c','-d',outFolder,'-config','cfg',...
    'evaluatePolicy','-args',argstr,'-report');

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值