以下内容全来自Matlab官方教程,在此仅作为自己的学习笔记。
当 agent 训练完成后,我们可以生成代码去部署最优策略,可以生成:
- 使用 GPU Coder 的深度神经网络策略的CUDA代码
- 使用 MATLAB Coder 的表格、深度神经网络或线性基函数策略的C/C++代码
支持代码生成的条件
在任何输入路径上使用前馈神经网络的agent,前提是支持所有使用的层。对于使用循环神经网络(RNN)的连续动作PG, AC, PPO, 和SAC 的 agent 不支持代码生成。
使用GPU Coder生成代码
示例可见
第一步:加载训练好的 agent
load('MATLABCartpolePG.mat','agent')
第二步:为 agent 创建一个策略评估函数
generatePolicyFunction(agent)
该命令创建了包含策略函数的 evaluatePolicy.m 文件,包含训练好的深度神经网络 actor 的agentData.mat 文件。对于给定的observation,策略函数使用actor网络评估每个潜在action的概率,然后策略函数根据这些概率随机选择一个action。
第三步:生成一个CUDA兼容的MEX函数,配置代码生成函数来创建一个CUDA兼容的C++ MEX函数
cfg = coder.gpuConfig('mex');
cfg.TargetLang = 'C++';
cfg.DeepLearningConfig = coder.DeepLearningConfig('cudnn');
第四步:为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。
argstr = '{ones(4,1)}';
第五步:使用 codegen 函数生成代码
codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');
该命令生成了 MEX 函数 evaluatePolicy_mex
使用MATLAB Coder生成代码
使用MATLAB Coder,我们可以生成:
- 使用Q表、值表或线性基函数的C/C++代码
- 使用深度神经网络的C++代码,但使用循环神经网络(RNN)的连续动作PG、AC、PPO和SAC的agent不支持代码生成
在不使用任何第三方库的情况下生成深度神经网络策略的C代码
示例可见
第一步:加载训练好的agent
load('MATLABCartpolePG.mat','agent')
第二步:为agent创建一个策略评估函数
generatePolicyFunction(agent)
该命令创建了包含策略函数的 evaluatePolicy.m 文件,包含训练好的深度神经网络 actor 的agentData.mat 文件。对于给定的observation,策略函数使用actor网络评估每个潜在action的概率,然后策略函数根据这些概率随机选择一个action。
第三步:配置代码生成功能,生成适合构建MEX文件的代码
cfg = coder.config('mex');
第四步:在配置对象上,将目标语言设置为C++,将DeepLearningConfig设置为“none”,没有使用任何第三方库
cfg.TargetLang = 'C';
cfg.DeepLearningConfig = coder.DeepLearningConfig('none');
第五步:为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。
argstr = '{ones(4,1)}';
第六步:使用 codegen 函数生成代码
codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');
该命令为包含深度神经网络actor的策略梯度agent生成C++代码
在使用第三方库情况下生成深度神经网络策略的C++代码
示例可见
第一步:加载训练好的agent
load('MATLABCartpolePG.mat','agent')
第二步:为agent创建一个策略评估函数
generatePolicyFunction(agent)
该命令创建了包含策略函数的 evaluatePolicy.m 文件,包含训练好的深度神经网络 actor 的agentData.mat 文件。对于给定的observation,策略函数使用actor网络评估每个潜在action的概率,然后策略函数根据这些概率随机选择一个action。
第三步:配置代码生成功能,生成适合构建MEX文件的代码
cfg = coder.config('mex');
第四步:在配置对象上,将目标语言设置为C++,将DeepLearningConfig设置为“mkldnn”,该选项使用了用于深度神经网络的Intel 数学内核库(Intel MKL-DNN)生成代码
cfg.TargetLang = 'C++';
cfg.DeepLearningConfig = coder.DeepLearningConfig('mkldnn');
第五步:为策略评估函数设置一个输入样例。这里的观测值是一个四元向量。
argstr = '{ones(4,1)}';
第六步:使用 codegen 函数生成代码
codegen('-config','cfg','evaluatePolicy','-args',argstr,'-report');
该命令为包含深度神经网络actor的策略梯度agent生成C++代码
生成Q表策略的C代码
示例可见
第一步:加载训练好的agent
load('basicGWQAgent.mat','qAgent')
第二步:为agent创建一个策略评估函数
generatePolicyFunction(qAgent)
该命令创建了包含策略函数的evaluatePolicy.m文件,包含训练好的Q表值函数的agentData.mat 文件。对于给定的observation,策略函数使用Q表查找每个潜在action的值函数,然后策略函数选择价值函数最大的动作。
第三步:为策略函数设置一个输入样例,这里是一个单一的一维观测(属于一个离散的可能值集)
argstr = '{[1]}';
第四步:配置codegen函数以生成适合于静态库的可嵌入C代码,并将输出文件夹设置为buildFolder
cfg = coder.config('lib');
outFolder = 'buildFolder';
第五步:使用 codegen 函数生成C代码
codegen('-c','-d',outFolder,'-config','cfg',...
'evaluatePolicy','-args',argstr,'-report');