自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_47997583的博客

小帅吖 CSDN认证博客专家 CSDN认证企业博客

码龄4年

194: 原创

3万+: 周排名

1万+: 总排名

34万+: 访问

: 等级

3049: 积分

1927: 粉丝

676: 获赞

182: 评论

2447: 收藏

私信

关注

热门文章

分类专栏

最新评论

stable-baselines3学习之Logger
勤勤勤能补拙: 我猜大家用PPO训练，会看到日志信息只有"time/"，但少了 "rollout/", "train/"这两块信息，这是正常的。默认情况下，PPO每次从环境收集完一笔资料(调用了collect_rollouts()，和环境交互了n次)，都会打印一次日志信息(一次日志信息用一个虚线框包裹着)，打印完日志信息开始用这笔资料训练train()，这次日志信息会包括几个部分： rollout/(记录到目前为止和环境进行了几轮完整的游戏了), time/(时间信息), train/(上一次训练train()的信息), 可能还有其它信息... 所以，假如当前一个episode都没有完成，就不会有"rollout/"信息打印，此时你可以适当增大PPO构造函数的n_steps形参(其它参数也可以)，只要让模型多和环境交互几次，至少完成一个episode后，就会打印"rollout/"信息了。 "train/"信息也是同理的，只有调用了PPO里面调用了train()，才会有日志信息。第一次打印时，还没有train()，所以不会有"train/"信息。你可以把PPO构造函数参数total_timesteps设置大一点，就可以看到"train/"信息了。这段逻辑可以看一下class OnPolicyAlgorithm(他是PPO的父类)的 learn函数。参考： stable_baselines3 代码：class OnPolicyAlgorithm。 "rollout/"信息没有输出，因为env没有用Monitor包裹：https://github.com/DLR-RM/stable-baselines3/issues/232 并不是很重要的信息：要看到"rollout/"还有一个前提，你的环境变量env一定要使用`env=Monitor(env)`再包装一下。这句代码你可以自己写，又或者你在控制台看到("Wrapping the env with a `Monitor` wrapper")，表示stable baselines3内部已经帮你自动调用了Monitor(env)，你就可以不用写。如有错误，请指正，谢谢。
解决报错cannot import name ‘_registerMatType‘ from ‘cv2.cv2‘
qq_52209044: 感谢，的确有用
stable-baselines3学习之自定义策略网络（Custom Policy Network）
xiaofei558008: "MlpPolicy"定义了DQN的策略网络是一个MLP网络，当然，你也可以填CnnPolicy来定义策略网络为CNN，不过此处的输入就是一个8维向量，没必要做local connection，所以还是选择MLP就好啦~
stable-baselines3学习之自定义策略网络（Custom Policy Network）
小帅吖: 全连接网络(多层感知机网络)
stable-baselines3学习之自定义策略网络（Custom Policy Network）
xiaofei558008: MlpPolicy 什么意思？

最新文章

分层强化学习

关注

文章平均质量分 89

关注数：文章数：4 文章阅读量：5070 文章收藏量：53

作者: 小帅吖

无

展开