完全新手推荐先看看白话强化学习 - 知乎。(我也是看的这个)
我的数学基础一般般,处于大概能看懂别人的文章,但是要反复看,看很多不同讲解的地步。
一起努力!
1.MC
2.PG
3.PPO
可以看看视频
来点基础知识:
信息熵、相对信息熵
通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。
1.不确定性函数f是概率P的减函数;2.两个独立符号所产生的不确定性应等于各自不确定性之和,即f(P1+P2)=f(P1)+f(P2),这称为可加性。同时满足这两个条件的函数f是对数函数。
简单点说就是找一个基本符合上面两条要求的简单函数。那么就有人要问了底数一定要是2吗? 那当然不是的,下文中提到,神经网络中通常使用e为底数。
相对熵,又称为KL散度或者信息散度,是两个概率分布间差异的非对称度量。信息论中,相对熵等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为拟合分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损失,公式如下:
重要性采样
重要性采样(Importance Sampling) - 知乎
我们用随机采样的散点去匹配原本具有一定弧度的曲线,除非你真的取了无数个点,有限的点所求得的期望是一定有巨大偏差的(想象一下以前学习积分时候的那张图,曲线下面是无数个小矩形)。那么这个时候就需要我们给他赋予一定的权重。
但是我们本来就是因为不知道这条曲线长啥样所以才求期望,那么我们边去想象一条理论上接近于这条曲线的拟合曲线,以拟合曲线的概率与原曲线的f(x)相乘求期望。
p(x) 为原概率密度函数 π(x)为拟合概率密度函数 f(x)为求得的值。那么我们就可以看作是函数在分布p(x)上的期望。 很有趣!
4.AC
5.AC,A2C,A3C
6.Q-Learning
7.DQN
8.DDPG
9.D2PG
还在不断更新中