（12-4-4）TRPO算法优化实战：基于矩阵低秩分解的TRPO

最新推荐文章于 2024-09-27 11:50:10 发布

码农三叔

最新推荐文章于 2024-09-27 11:50:10 发布

阅读量626

点赞数 22

分类专栏：强化学习从入门到实践文章标签：算法 python 人工智能深度学习强化学习迁移学习

本文链接：https://blog.csdn.net/asd343442/article/details/137006928

版权

强化学习从入门到实践专栏收录该内容

85 篇文章 7 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

12.4.10 性能可视化

编写文件plot.py，用于生成图表以可视化展示在不同环境下（Pendulum、Acrobot 和 Mountain Car）使用不同的 TRPO 算法（NN-TRPO 和 TRLRPO）训练的代理的性能。文件plot.py的具体实现代码如下所示。

import pickle
import numpy as np
import matplotlib.pyplot as plt

res_nn_pend = pickle.load(open('results/pend_nn.pkl','rb'))
res_lr_pend = pickle.load(open('results/pend_lr.pkl','rb'))
res_nn_acro = pickle.load(open('results/acro_nn.pkl','rb'))
res_lr_acro = pickle.load(open('results/acro_lr.pkl','rb'))
res_nn_mount = pickle.load(open('results/mount_nn.pkl','rb'))
res_lr_mount = pickle.load(

了解本专栏