交叉熵方法(Cross-Entropy Method)

重要性采样定理

在这里插入图片描述
重要性采样可以改变原来的旧分布,用新的分布去采集样本,然后求出目标期望,上述证明显示两者理论上是等价的,但是等价他有个前提条件:就是2个分布不能相差太大。换句话说,如果2个分布相差过大,那么两者就不会相等,这就是IS的缺陷。
在这里插入图片描述
IS确实可以让2个分布产生一个期望,但是期望相等并不代表方差相等。如上图红框所示,如果2者相差过大,就会导致双方的方差Varience过大。而当采样数据不足够时,方差相差太大会导致两者的样本均值相差很大!

重要性采样的用处在于对于原分布下不太好求解的情况下,把问题转移到在另一个分布下求解期望。

交叉熵方法

请添加图片描述
步骤:

  1. 使用当前的模型和环境产生N次片段
  2. 计算每个片段的总奖励,并确定奖励边界。通常使用总奖励的百分比来确定。
  3. 将奖励在边界以下的片段丢掉
  4. 用观察值作为输入,智能体产生的动作作为目标输出,训练剩余的片段
  5. 从第一步开始重复,直到得到满意的结果

思想:
π i + 1 ( a ∣ s ) \pi_{i+1}(a|s) πi+1(as)来近似 π i ( a ∣ s ) \pi_i(a|s) πi(as),选择每次交叉熵最小的进行迭代,我们不知道 π i ( a ∣ s ) \pi_i(a|s) πi(as)的具体形式,但知道它是是累积奖励最大的策略,所以每次选择奖励大的episode进行更新。

参考:

  1. https://blog.csdn.net/MR_kdcon/article/details/112134708
    2.《 深度学习强化实践》
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值