PPO算法

最新推荐文章于 2024-06-17 19:49:51 发布

HCH996

最新推荐文章于 2024-06-17 19:49:51 发布

阅读量2.7k

点赞数

分类专栏：科研

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37841366/article/details/112404558

版权

科研专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在线学习和离线学习

在线学习:和环境互动的Agent以及和要学习的Agent是同一个，同一个Agent，一边和环境做互动，一边在学习。
离线学习: 和环境互动及的Agent以和要学习的Agent不是同一个，学习的Agent通过看别人完来学习。

利用新的参数 $\theta\prime$ 去采样一次，然后更新 $\theta$ 多次。那么怎么做呢?利用重要性采样的方法。

重要性采样

$E_{x\sim p}[f(x)] \approx \frac{1}{N}\sum_{i=1}^{N}f(x^i)$

x^i 表示从分布 p(x) 中采样数据，但如果我们无法从 p(x) 分布中采样数据，只能从另一个分布中采样 q(x) x^i 。对期望值进行修正

$E_{x\sim p}[f(x)] = \int f(x)p(x)dx = \int f(x)\frac{p(x)}{q(x)}q(x)dx$

然后可以改成对分布 q(x) 中的取期望值。

$\int f(x)\frac{p(x)}{q(x)}q(x)dx=E_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$

从 q(x) 分布中采样数据，需要再乘以一个weight $\frac{p(x)}{q(x)}$ 以修正两个分布之间的差异。

$E_{x\sim p}[f(x)] \approx E_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$

通过重要性采样技巧将在线学习转换为离线学习

利用 $\theta\prime$ 去和环境做互动，利用搜集到的数据对 $\theta$ 进行更新。当 $\theta$ 更新到一定次数之后，再利用 $\theta\prime$ 重新去和环境做互动。

推导出新的目标函数 $J^{\theta^{\prime}}({\theta})$ , 表示利用 $\theta \prime$ 去采样进而更新参数 $\theta$ 。引用重要性采用的前提是这两个分布不能相差太多，否则结果就会不好，那如何去避免相差太多呢?这就是PPO在做的事情，在训练的时候多加一个限制，希望 $\theta$ 和 $\theta^{\prime}$ 越像越好。PPO的前身是TRPO

就是两个限制的位置是不同的，PPO在实做上比TRPO要更加容易。KL距离不是指的参数上的距离，而是表现上的距离，而是action上的距离。

PPO算法

对应的函数图像如下所示:（横轴为第一项的值，纵轴为clip函数的输出，当第一项小于( $1- \varepsilon$ ）,输出 $1- \varepsilon$ ，当第一项大于 $1+ \varepsilon$ ，输出 $1+ \varepsilon$ ，否则介于两者之间的话直接输出第一项的值。

示意图:在绿色的线和蓝色的线之间取最小的那个值。如果A>0，取左图中的红线，如果A<0，取右图中的红线为目标函数。

这个复杂公式的目的在于控制与环境交互的Model和跟新参数的Model之间的差距不要过大。具体为:

如果A>0，意味着应该增加状态动作对的几率，也即希 $p_\theta$ 望越大越好，但又限制其和 $p_{\theta \prime}$ 的比值不能超过 $1+ \varepsilon$ 。A<0的时候也是类似的。

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
PPO算法

在线学习和离线学习在线学习:和环境互动的Agent以及和要学习的Agent是同一个，同一个Agent，一边和环境做互动，一边在学习。离线学习:和环境互动及的Agent以和要学习的Agent不是同一个，学习的Agent通过看别人完来学习。利用新的参数去采样一次，然后更新多次。那么怎么做呢?利用重要性采样的方法。重要性采样表示从分布中采样数据，但如果我们无法从分布中采样数据，只能从另一个分布中采样。对期望值进行修正然后可以改成对分布中的取期望值。从分布中采样数据， .
复制链接

扫一扫

专栏目录

HCH996 CSDN认证博客专家 CSDN认证企业博客

码龄7年

436: 原创

17万+: 周排名

141万+: 总排名

22万+: 访问

: 等级

4831: 积分

205: 粉丝

136: 获赞

92: 评论

505: 收藏

私信

关注

分类专栏

项目 61篇
Android开发 3篇
计算机网络 11篇
Java 60篇
算法 99篇
Netty 1篇
科研 9篇
Linux 26篇
面经 3篇
数据库 22篇
SSM 8篇
spring 7篇
SpringBoot 49篇
redis 28篇
分布式事务 3篇
并发编程篇 11篇
设计模式 21篇
分布式 3篇
JVM 3篇
JVM虚拟机 2篇
软件测试 9篇
国家电网
ElasticSearch 3篇
Quartz 1篇
Kafka
高并发分布式 2篇
人工智能 4篇
算法高频面试题精讲 4篇
leetcode刷题 11篇

最新评论

什么是指令重排序？为什么要重排序？
生来如风: 关于最后一段话，没有特别理解，想请教一下这一句【线程 2 却可能看到线程 1 修改 a 之后的代码执行效果】
HTTP协议的工作原理-HTTP1.0-HTTP1.1-HTTP2.0之间的区别-HTTP响应状态码
2301_79305604: 为什么不攻击小三的臀部
软件的安装：编译安装和包管理器安装有什么优势和劣势
Issac-Clarke: 这几天也一直纠结yum源安装和编译安装的选择问题，写的很详细，
PPO算法
m0_73822959: 您好，对于连续动作actor网络一定输出高斯分布吗，还有您的问题怎么解决的呢
什么是指令重排序？为什么要重排序？
茶汰: class文件也不会把load a、load b这些指令显示出来，所以是看不出来的

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。