点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
为了提高基于策略梯度的强化学习算法的样本效率,我们提出了基于两个深度生成器网络(DGN)和一个更加灵活的半隐式actor(SIA)的隐分布actor-critic 算法(IDAC)。采用分布式强化学习观点,并使用与状态动作相关的隐式分布对其建模,该隐式分布将状态动作对和随机噪声作为其输入的DGN近似。此外,使用SIA来提供半隐式策略分布,该策略分布将策略参数与不受分析密度函数约束的可重新参数化分布混合在一起。这样,该策略的边缘分布是隐式的,提供了对诸如协方差结构和偏度之类的复杂属性建模的潜力,但仍可以进行熵的估计计算。我们将这些功能与off-policy算法框架结合在一起,以解决连续动作空间中的问题,并将IDAC与其他标准算法在OpenAI Gym里进行比较,我们观察到IDAC在大多数任务中都优于这些基准。
岳煜光:本科毕业于复旦大学数学系,现为德州大学奥斯汀分校统计系博士,导师为周名远。主要研究兴趣是贝叶斯统计和强化学习,以及其他与统计相关的强化学习方向如模仿学习。
一、Motivation: 强化学习的局限性在哪里?
强化学习(Reinforcement Learning,RL)是什么?强化学习的目的是:学习从状态(state)到动作(action)的一种映射(map),以获得最大化的收益(reward)。其组成部分,可分为以下5个方面:
● 状态/观测值(state/observation):当前情况;
● 动作(action):当前采取的动作以及下一步的动作;
● 奖励(reward):基于当前的state和action会获得的奖励;
● 策略(policy):如何做决策;
● 动态环境(environment dynamics):包括转移矩阵或者环境的核函数。
如何处理强化学习任务?通常分为两类方法:Policy gradient based algorithm 以及Value based algorithm。讲者就第二种方法进行介绍,主要算法步骤如图1所示。其中动作-值函数(Action-Value function)被定义为,在当前策略π的情况下,从初始状态-动作对(State-action pair