强化学习已经成为大家关注的点,至少据我了解世界顶级名校CV的实验室都在做这方面的工作。最近也在做相关的Research,正好遇到了在Torch中的RL实现,发现没有什么可以参考的中文资料,只能试着来解释一下Torch中的RL实现。
原理篇
在Torch中的RL【2】实现参考的是论文【1】的方法实现。实现的也是比较简单的immediate RL。在【1】中提出了immediate RL,也是类似于associative reward-inaction AR-I的方法。
假设输出是一个向量,那么第i和输出的计算如下:
首先是为了计算出 si :
再用mass function对 si 进行处理得到 pi :
这里的 fi 可以使用logistic function计算:
假设输出符合伯努利分布,那么对于输出为0或者1的概率分别为:
在进行训练计算BP更新w:
首先是 αij