①DRL algorithm trick ------ Ornstein–Uhlenbeck 随机过程

EdenGabriel

已于 2022-05-01 11:31:18 修改

阅读量1.4k

点赞数

分类专栏：深度强化学习文章标签：深度学习人工智能 python 强化学习

于 2020-03-18 17:47:35 首次发布

本文链接：https://blog.csdn.net/qq_38587510/article/details/104949438

版权

深度强化学习专栏收录该内容

5 篇文章 14 订阅

订阅专栏

DDPG中提到了OU随机噪声，OU过程是一种序贯相关的过程，RL也是一种序贯相关模型，so 引入OU噪声也有一定道理。

OU随机过程：原理讲解
 OU随机过程：代码复现

2022.05.01更新：
这篇blog对ou噪声&高斯噪声做了详细的对比分析，值得好好看一下
强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗?
总的来说，ou噪声适用于惯性系统、时间离散化粒度（采样时间）较小的场景。

将其推广到连续随机系统当中就是这个样子在这里插入图片描述

代码复现

class OrnsteinUhlenbeckActionNoise:
    def __init__(self, mu, sigma=0.2, theta=0.15, dt=1e-2, x0=None):
        self.theta = theta
        self.mu = mu
        self.sigma = sigma
        self.dt = dt
        self.x0 = x0
        self.reset()
 
    def __call__(self):
        x = self.x_prev + self.theta * (self.mu - self.x_prev) * self.dt + self.sigma * np.sqrt(self.dt) * np.random.normal(size=self.mu.shape)
        self.x_prev = x
        return x
 
    def reset(self):
        self.x_prev = self.x0 if self.x0 is not None else np.zeros_like(self.mu)
 
    def __repr__(self):
        return 'OrnsteinUhlenbeckActionNoise(mu={}, sigma={})'.format(self.mu, self.sigma)

对应上面的公式解读一下这句代码

x = self.x_prev + self.theta * (self.mu - self.x_prev) * self.dt + self.sigma * np.sqrt(self.dt) * np.random.normal(size=self.mu.shape)

dX(t) = X(t)-X(t-1)，这里的dx(t)实际上等于x-x_prev；公式中sigma乘上一个期望为0方差为d(t)的正态分布，而python实现中的np.random.normal生成的是一个标准正态分布。所以需要进行一个转换：
(x-u)/sigma ~ N(0,1) ------> x = u+sigma*N(0,1)

EdenGabriel

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
①DRL algorithm trick ------ Ornstein–Uhlenbeck 随机过程

DDPG中提到了OU随机噪声，OU过程是一种序贯相关的过程，RL也是一种序贯相关模型，so 引入OU噪声也有一定道理。OU随机过程：原理讲解OU随机过程：代码复现将其推广到连续随机系统当中就是这个样子代码复现class OrnsteinUhlenbeckActionNoise: def __init__(self, mu, sigma=0.2, theta=0.15, dt=...
复制链接

扫一扫