机器学习——PPO补充

最新推荐文章于 2024-10-29 14:57:08 发布

uncle_ll

最新推荐文章于 2024-10-29 14:57:08 发布

阅读量414

点赞数 9

分类专栏：机器学习文章标签：机器学习人工智能强化学习 PPO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uncle_ll/article/details/136598048

版权

机器学习专栏收录该内容

69 篇文章 6 订阅

订阅专栏

On-policy vs Off-policy

在这里插入图片描述

今天跟环境互动，并学习是on-policy
只是在旁边看，就是Off-policy
从p中选q个重要的，需要加一个weight p(x)/q(x)
p和q不能相差太多
采样数太少导致分布差很多，导致weight发生变化

On-Policy -> Off-Policy

在这里插入图片描述

得到新的loss函数

PPO

在这里插入图片描述

衡量 $\theta$ 和 $\theta'$ 之间的kl散度，衡量二者行为上的相似性，而不是参数上的相似性

在这里插入图片描述

Adaptive KL Penalty

在这里插入图片描述

绿色的线是第一项，蓝色是第二项

在这里插入图片描述

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

uncle_ll

CSDN认证博客专家 CSDN认证企业博客

码龄11年

813: 原创

6730: 周排名

1694: 总排名

155万+: 访问

: 等级

1万+: 积分

4938: 粉丝

2972: 获赞

441: 评论

6278: 收藏

私信

关注

热门文章

分类专栏

最新评论

代码与财富：程序员如何利用技术优势投资金融？
2301_77775267: 优秀！关注了看了下历史文章感觉哥们儿离我不远啊
yolo图像检测数据集格式转换：xml 与 txt格式相互转换
uncle_ll: 这个错误消息表明在 Python 脚本 txtx-xml.py 的第 27 行，存在一个缩进错误。具体来说，IndentationError: unindent does not match any outer indentation level 表示该行的缩进与它所在代码块的其它行不匹配。在 Python 中，缩进是极其重要的，因为它用来表示代码块的层次结构。错误的缩进会导致程序无法正确识别代码块的开始和结束。解决步骤检查缩进：确保第 27 行的缩进与它所在代码块的其他行完全一致。查看它前后几行的缩进，并确保一致性。使用统一的缩进方式：确保整个文件中使用的是空格或制表符（通常是4个空格）来缩进，不要混用。检查前后相关代码：有时候，错误可能不在报错的那一行，而是在之前的几行。检查前后的代码，确保所有相关的代码行都有正确的缩进。
yolo图像检测数据集格式转换：xml 与 txt格式相互转换
symhxy: PS G:\yolov10\yolov10-main> & D:/BDRJ/envs/yolov10/python.exe g:/yolov10/yolov10-main/txtx-xml.py File "g:\yolov10\yolov10-main\txtx-xml.py", line 27 oneline = i.strip().split(" ") ^ IndentationError: unindent does not match any outer indentation level 这个是完整的
yolo图像检测数据集格式转换：xml 与 txt格式相互转换
uncle_ll: 报什么错把i print出来看看
yolo图像检测数据集格式转换：xml 与 txt格式相互转换
symhxy: File "g:\yolov10\yolov10-main\txtx-xml.py", line 27 oneline = i.strip().split(" ") 你好，这个报错是什么意思呢

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

uncle_ll 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。