DRL学习

完全新手推荐先看看白话强化学习 - 知乎。(我也是看的这个)

我的数学基础一般般,处于大概能看懂别人的文章,但是要反复看,看很多不同讲解的地步。

一起努力!

1.MC

2.PG

3.PPO

PG算法与PPO算法_哔哩哔哩_bilibili

可以看看视频

来点基础知识:

信息熵、相对信息熵

通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。

1.不确定性函数f是概率P的减函数;2.两个独立符号所产生的不确定性应等于各自不确定性之和,即f(P1+P2)=f(P1)+f(P2),这称为可加性。同时满足这两个条件的函数f是对数函数。F(X)=log_2(\frac{1}{X})=-log_2(X)

简单点说就是找一个基本符合上面两条要求的简单函数。那么就有人要问了底数一定要是2吗? 那当然不是的,下文中提到,神经网络中通常使用e为底数。

信息熵与相对熵(KL散度) - 知乎

相对熵,又称为KL散度或者信息散度,是两个概率分布间差异的非对称度量。信息论中,相对熵等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为拟合分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损失,公式如下:

D_{KL}(p||q)=\sum_{i=1}^N[p(x_{i})log p(x_i)-p(x_i)log q(x_i)]

重要性采样

重要性采样(Importance Sampling) - 知乎

        我们用随机采样的散点去匹配原本具有一定弧度的曲线,除非你真的取了无数个点,有限的点所求得的期望是一定有巨大偏差的(想象一下以前学习积分时候的那张图,曲线下面是无数个小矩形)。那么这个时候就需要我们给他赋予一定的权重。

        但是我们本来就是因为不知道这条曲线长啥样所以才求期望,那么我们边去想象一条理论上接近于这条曲线的拟合曲线,以拟合曲线的概率与原曲线的f(x)相乘求期望。

E[f]=\int _xp(x)f(x)dx\approx \frac{1}{N}\sum _{i=1}^Nf(x_i) \approx \frac{1}{N}\sum _{i=1}^N \pi(x)f(x) =\int _xp(x)\frac{\pi(x)}{p(x)}f(x)dx

p(x) 为原概率密度函数 π(x)为拟合概率密度函数 f(x)为求得的值。那么我们就可以看作是函数\frac{\pi(x)}{p(x)}f(x)在分布p(x)上的期望。 很有趣!

4.AC

5.AC,A2C,A3C

强化学习(十三 )--AC、A2C、A3C算法 - 知乎

 

6.Q-Learning

7.DQN

8.DDPG

9.D2PG

还在不断更新中

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值