DRL学习

blood_thirsty

已于 2022-10-09 10:29:54 修改

阅读量216

点赞数 1

文章标签：学习

于 2022-10-01 12:23:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blood_thirsty/article/details/127133196

版权

完全新手推荐先看看白话强化学习 - 知乎。（我也是看的这个）

我的数学基础一般般，处于大概能看懂别人的文章，但是要反复看，看很多不同讲解的地步。

一起努力！

1.MC

2.PG

3.PPO

PG算法与PPO算法_哔哩哔哩_bilibili

可以看看视频

来点基础知识：

信息熵、相对信息熵

通常，一个信源发送出什么符号是不确定的，衡量它可以根据其出现的概率来度量。概率大，出现机会多，不确定性小；反之不确定性就大。

1.不确定性函数f是概率P的减函数；2.两个独立符号所产生的不确定性应等于各自不确定性之和，即f(P1+P2)=f(P1)+f(P2)，这称为可加性。同时满足这两个条件的函数f是对数函数。 $F(X)=log_2(\frac{1}{X})=-log_2(X)$

简单点说就是找一个基本符合上面两条要求的简单函数。那么就有人要问了底数一定要是2吗？那当然不是的，下文中提到，神经网络中通常使用e为底数。

信息熵与相对熵(KL散度) - 知乎

相对熵，又称为KL散度或者信息散度，是两个概率分布间差异的非对称度量。信息论中，相对熵等价于两个概率分布的信息熵的差值，若其中一个概率分布为真实分布，另一个为拟合分布，则此时相对熵等于交叉熵与真实分布的信息熵之差，表示使用理论分布拟合真实分布时产生的信息损失，公式如下：

$D_{KL}(p||q)=\sum_{i=1}^N[p(x_{i})log p(x_i)-p(x_i)log q(x_i)]$

重要性采样

重要性采样（Importance Sampling） - 知乎

我们用随机采样的散点去匹配原本具有一定弧度的曲线，除非你真的取了无数个点，有限的点所求得的期望是一定有巨大偏差的（想象一下以前学习积分时候的那张图，曲线下面是无数个小矩形）。那么这个时候就需要我们给他赋予一定的权重。

但是我们本来就是因为不知道这条曲线长啥样所以才求期望，那么我们边去想象一条理论上接近于这条曲线的拟合曲线，以拟合曲线的概率与原曲线的f(x)相乘求期望。

$E[f]=\int _xp(x)f(x)dx\approx \frac{1}{N}\sum _{i=1}^Nf(x_i) \approx \frac{1}{N}\sum _{i=1}^N \pi(x)f(x) =\int _xp(x)\frac{\pi(x)}{p(x)}f(x)dx$

p(x) 为原概率密度函数 π(x)为拟合概率密度函数 f(x)为求得的值。那么我们就可以看作是函数 $\frac{\pi(x)}{p(x)}f(x)$ 在分布p(x)上的期望。很有趣！

4.AC

5.AC,A2C,A3C

强化学习（十三）--AC、A2C、A3C算法 - 知乎

6.Q-Learning

7.DQN

8.DDPG

9.D2PG

还在不断更新中

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DRL学习

深度强化学习
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。