Torch中的Reinforcement Learning的底层实现

本文详细解析Torch中的强化学习(RL)实现,重点介绍了nn.ReinforceCategorical和nn.Reinforce模块,包括它们的原理、代码实现和在训练与评估过程中的作用。文章还提及了其他RL相关函数如scatter、multinomial,以及在RL中常用的ArgMax和 Collapse模块,并提供了相关论文和代码资源链接。
摘要由CSDN通过智能技术生成

强化学习已经成为大家关注的点,至少据我了解世界顶级名校CV的实验室都在做这方面的工作。最近也在做相关的Research,正好遇到了在Torch中的RL实现,发现没有什么可以参考的中文资料,只能试着来解释一下Torch中的RL实现。

原理篇

在Torch中的RL【2】实现参考的是论文【1】的方法实现。实现的也是比较简单的immediate RL。在【1】中提出了immediate RL,也是类似于associative reward-inaction AR-I的方法。

假设输出是一个向量,那么第i和输出的计算如下:
首先是为了计算出 si
这里写图片描述

再用mass function对 si 进行处理得到 pi
这里写图片描述

这里的 fi 可以使用logistic function计算:
这里写图片描述

假设输出符合伯努利分布,那么对于输出为0或者1的概率分别为:
这里写图片描述

在进行训练计算BP更新w:
这里写图片描述

首先是 αij

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值