Matlab强化学习——部署策略

m0_55550911

已于 2023-04-10 21:42:39 修改

阅读量1.2k

点赞数 2

文章标签：深度学习人工智能 matlab

于 2023-02-10 17:50:08 首次发布

以下内容全来自Matlab官方教程，在此仅作为自己的学习笔记。

当 agent 训练完成后，我们可以生成代码去部署最优策略，可以生成：

使用 GPU Coder 的深度神经网络策略的CUDA代码
使用 MATLAB Coder 的表格、深度神经网络或线性基函数策略的C/C++代码

支持代码生成的条件

在任何输入路径上使用前馈神经网络的agent，前提是支持所有使用的层。对于使用循环神经网络(RNN)的连续动作PG, AC, PPO, 和SAC 的 agent 不支持代码生成。

使用GPU Coder生成代码

示例可见

第一步：加载训练好的 agent

load('MATLABCartpolePG.mat','agent')

第二步：为 agent 创建一个策略评估函数

generatePolicyFunction(agent)

该命令创建了包含策略函数的 evaluatePolicy.m 文件，包含训练好的深度神经网络 actor 的agentData.mat 文件。对于给定的observation，策略函数使用actor网络评估每个潜在action的概率，然后策略函数根据这些概率随机选择一个action。

第三步：生成一个CUDA兼容的MEX函数，配置代码生成函数来创建一个CUDA兼容的C++ MEX函数

cfg = coder.gpuConfig('mex');
cfg.TargetLang = 'C++';
cfg.DeepLearningConfig = coder.DeepLearningConfig('cudnn');

第四步：为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。

argstr = '{ones(4,1)}';

第五步：使用 codegen 函数生成代码

codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');

该命令生成了 MEX 函数 evaluatePolicy_mex

使用MATLAB Coder生成代码

使用MATLAB Coder，我们可以生成：

使用Q表、值表或线性基函数的C/C++代码
使用深度神经网络的C++代码，但使用循环神经网络(RNN)的连续动作PG、AC、PPO和SAC的agent不支持代码生成

在不使用任何第三方库的情况下生成深度神经网络策略的C代码

示例可见

第一步：加载训练好的agent

load('MATLABCartpolePG.mat','agent')

第二步：为agent创建一个策略评估函数

generatePolicyFunction(agent)

第三步：配置代码生成功能，生成适合构建MEX文件的代码

cfg = coder.config('mex');

第四步：在配置对象上，将目标语言设置为C++，将DeepLearningConfig设置为“none”，没有使用任何第三方库

cfg.TargetLang = 'C';
cfg.DeepLearningConfig = coder.DeepLearningConfig('none');

第五步：为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。

argstr = '{ones(4,1)}';

第六步：使用 codegen 函数生成代码

codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');

该命令为包含深度神经网络actor的策略梯度agent生成C++代码

在使用第三方库情况下生成深度神经网络策略的C++代码

示例可见

第一步：加载训练好的agent

load('MATLABCartpolePG.mat','agent')

第二步：为agent创建一个策略评估函数

generatePolicyFunction(agent)

第三步：配置代码生成功能，生成适合构建MEX文件的代码

cfg = coder.config('mex');

第四步：在配置对象上，将目标语言设置为C++，将DeepLearningConfig设置为“mkldnn”，该选项使用了用于深度神经网络的Intel 数学内核库（Intel MKL-DNN）生成代码

cfg.TargetLang = 'C++';
cfg.DeepLearningConfig = coder.DeepLearningConfig('mkldnn');

第五步：为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。

argstr = '{ones(4,1)}';

第六步：使用 codegen 函数生成代码

codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');

该命令为包含深度神经网络actor的策略梯度agent生成C++代码

生成Q表策略的C代码

示例可见

第一步：加载训练好的agent

load('basicGWQAgent.mat','qAgent')

第二步：为agent创建一个策略评估函数

generatePolicyFunction(qAgent)

该命令创建了包含策略函数的evaluatePolicy.m文件，包含训练好的Q表值函数的agentData.mat 文件。对于给定的observation，策略函数使用Q表查找每个潜在action的值函数，然后策略函数选择价值函数最大的动作。

第三步：为策略函数设置一个输入样例，这里是一个单一的一维观测（属于一个离散的可能值集）

argstr = '{[1]}';

第四步：配置codegen函数以生成适合于静态库的可嵌入C代码，并将输出文件夹设置为buildFolder

cfg = coder.config('lib');
outFolder = 'buildFolder';

第五步：使用 codegen 函数生成C代码

codegen('-c','-d',outFolder,'-config','cfg',...
    'evaluatePolicy','-args',argstr,'-report');

m0_55550911

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Matlab强化学习——部署策略

当 agent 训练完成后，我们可以生成代码去部署最优策略
复制链接

扫一扫

Matlab强化学习——部署策略

支持代码生成的条件

使用GPU Coder生成代码

使用MATLAB Coder生成代码

在不使用任何第三方库的情况下生成深度神经网络策略的C代码

在使用第三方库情况下生成深度神经网络策略的C++代码

生成Q表策略的C代码

“相关推荐”对你有帮助么？