【文章翻译】Reinforced Variational Inference


简介

近年来,用于理解和分析数据的概率模型的复杂度和规模逐渐增加,执行推理的难度也相应增加。因此,通过学习后验分布的变分近似的随机梯度下降算法得到了发展。此外,许多研究者还考虑使用概率推断来解决最优化控制问题[5, 6, 12, 17, 25]。通过将控制问题转化为推理问题,研究者发现他们能够借用推理文献中的算法(例如,置信传播)并将它们转化为控制算法。本文恰好相反,我们将变分推断中学习近似后验分布的问题转化为强化学习中的策略优化问题,并从两个层面解释这种联系。

首先,本文给出了二者较高层次的关联,变分推断的近似后验与强化学习的数据轨迹样本之间的关联、变分推断的自由能和强化学习的预期回报的关联,其中计算期望的梯度为所涉及的核心计算问题。紧接着,我们给出了更多细节,给出了一系列映射关系,其中马尔可夫决策(状态,动作,奖励和转移函数)在推理中都具有明确的定义。然后,我们将说明如何利用强化学习的思想对推理网络进行学习,例如,通过在序列化的变分推断中引入价值函数的概念。为了具体和简单,在正文中,我们关注于对特定模型类的推理,并在附录中给出对于一般情况的推导过程。

本文在第二章和第三章中提供了变分推理和强化学习的背景知识。然后,我们将在第4节中重点讨论这两个框架之间的联系,并在第5节中给出两个框架关联关系的总结。


变分推断

推理问题: 给定模型 p ( z ) p ( x ∣ z ) p(z)p(x|z) p(z)p(xz),其中 z z z为潜在变量,为 x x x观测变量,这里我们需要求解先验概率 p ( z ∣ x ) p(z|x) p(zx)。对于许多问题来说,准确的先验概率难以得到。因此,通常会尝试计算一个与先验概率相近的近似分布 q ( z ∣ x ) q(z|x) q(zx)

模型和近似后验: 该问题的目标是将模型 p p p和近似后验 q q q进行分解,转化成局部条件分布的乘积形式。为了明确和简介,本文考虑一个特殊情况的模型,即模型具有马尔科夫性。(例如,一个隐马尔可夫过程,或者是一个多层随机神经网络);完整的一般性说明请见附录B。
p ( x , z ) = p ( z 1 ) p ( z 2 ∣ z 1 ) . . . p ( z K ∣ z K − 1 ) p ( x ∣ z K ) p(x,z)=p(z_1)p(z_2|z_1)...p(z_K|z_{K-1})p(x|z_K) p(x,z)=p(z1)p(z2z1)...p(zKzK1)p(xzK)
我们选择一个近似的后验,它可以用类似的方法进行分解:
q ( x ∣ z ) = q ( z 1 ∣ x ) q ( z 2 ∣ z 1 , x ) . . . q ( z K ∣ z K − 1 , x ) q(x|z)=q(z_1|x)q(z_2|z_1,x)...q(z_K|z_{K-1},x) q(xz)=q(z1x)q(z2z1,x)...q(zKzK1,x)
目标函数: 在变分推理的目标是使下列函数最大化:
L ( q ) = ∫ q ( z ∣ x ) log ⁡ p ( x ∣ z ) p ( z ) q ( z ∣ x ) d z \mathcal{L}(q)=\int q(z|x) \log \frac{p(x|z)p(z)}{q(z|x)}dz L(q)=q(zx)logq(zx)p(xz)p(z)dz
这个被称为负自由能的目标函数构造受两个概念启发:(a)最大化 L ( q ) \mathcal{L}(q) L(q)等价于最小化近似后验分布和真实后验分布的KL散度。(b) L ( q ) \mathcal{L}(q) L(q)是数据对数似然 log ⁡ p ( x ) \log p(x) logp(x)的下界,因此最大化 L ( q ) \mathcal{L}(q) L(q)是最优化数据对数似然的算法。

目标函数的随机优化: 近似后验 q q q函数通常从一些带参数 θ \theta θ的参数族中选取( L \mathcal{L} L是一个关于 θ \theta θ的方程而不是关于 q q q)。对于 L \mathcal{L} L的梯度的关于 θ \theta θ蒙特卡洛估计可以通过似然函数方法来获得(附录A中给出了细节),对于 z ( i ) ∼ q θ ( ⋅ ∣ x ) z^{(i)} \sim q_{\theta}(\cdot|x) z(i)qθ(x),我们有:
∂ L ∂ θ = E z ∼ q θ [ ∂ ∂ θ log ⁡ q θ ( z ∣ x ) ( log ⁡ p ( x ∣ z ) p ( z ) q θ ( z ∣ x ) ) ] ≈ 1 N ∑ i = 1 N ∂ ∂ θ log ⁡ q θ ( z ( i ) ∣ x ) ( log ⁡ p ( x ∣ z ( i ) ) p ( z ( i ) ) q θ ( z ( i ) ∣ x ) ) \frac{\partial \mathcal{L}}{\partial \theta} = \mathbb{E}_{z \sim q_{\theta}}\left[ \frac{\partial}{\partial \theta} \log q_{\theta}(z|x) \left( \log \frac{p(x|z)p(z)}{q_{\theta}(z|x)} \right) \right] \\ \approx \frac{1}{N} \sum_{i=1}^{N} \frac{\partial}{\partial \theta} \log q_{\theta} \left(z^{(i)} | x \right) \left( \log \frac{p(x|z^{(i)})p(z^{(i)})}{q_{\theta}(z^{(i)}|x)} \right) θL=Ezqθ[θlogqθ(zx)(logqθ(zx)p(xz)p(z))]N1i=1Nθlogqθ(z(i)x)(logqθ(z(i)x)p(xz(i))p(z(i)))


强化学习

在强化学习中,智能体以时间序列化的方式与环境进行交互。在每个步骤中,智能体会观察环境的状态,采取一个动作,并获得即时的奖励。智能体的目标是最大化所有时间序列上奖励的期望总数。

目标函数: 形式上,优化目标是最大化以下函数:
J ( θ ) = E τ ∼ p θ [ ∑ t = 1 T r ( s t , a t ) ] = ∫ p θ ( τ ) R ( τ ) d τ \mathcal{J}(\theta) = \mathbb{E}_{\tau\sim p_{\theta}} \left[ \sum_{t=1}^{T} r(s_t,a_t) \right] = \int p_{\theta} (\tau) R(\tau) d\tau J(θ)=Eτpθ[t=1Tr(st,at)]=pθ(τ)R(τ)dτ
其中, s , a , r s,a,r s,a,r分别为状态、动作和奖励; τ = ( s 1 , a 1 , s 2 , a 2 , . . . , s T , a T ) \tau = (s_1,a_1,s_2,a_2,...,s_T,a_T) τ=(s1,a1,s2,a2,...,sT,aT)为轨迹; R ( τ ) = ∑ t = 1 T r t R(\tau) = \sum_{t=1}^{T} r_t R(τ)=t=1Trt为整个轨迹的回归。

策略和轨迹分布: p θ p_{\theta} pθ 为轨迹分布:
p θ ( τ ) = P ( s 1 ) π θ ( a 1 ∣ s 1 ) ∏ t = 2 T P ( s t ∣ s t − 1 , a t − 1 ) π θ ( a t ∣ s t ) p_{\theta}(\tau) = P(s_1)\pi_{\theta}(a_1|s_1) \prod_{t=2}^{T} P(s_t|s_{t-1},a_{t-1})\pi_{\theta}(a_t|s_t) pθ(τ)=P(s1)πθ(a1s1)t=2TP(stst1,at1)πθ(atst)
上述分布是策略 π θ \pi_{\theta} πθ的组合,主要包括状态条件的动作分布(带参数 θ \theta θ)这是智能体行为的特征, P ( s t ∣ s t − 1 , a t − 1 ) P(s_t|s_{t-1},a_{t-1}) P(stst1,at1)是马尔科夫决策过程的转移概率函数,通过该函数可以模拟环境。

下面我们将使用 R t ( τ ) = ∑ t ′ = t T r ( s t ′ , a t ′ ) R_{t}(\tau)=\sum_{t'=t}^{T} r(s_{t'},a_{t'}) Rt(τ)=t=tTr(st,at)作为服从行动(序列) a t a_t at带来的奖励总和。

目标函数的随机优化: 对于目标函数 J \mathcal{J} J梯度的蒙特卡洛估计可通过以下等式得到(详见附录A):
∂ J ( θ ) ∂ θ = E τ ∼ p θ [ ∂ ∂ θ log ⁡ p θ ( τ ) R ( τ ) ] ≈ 1 N ∑ i = 1 N ∂ ∂ θ log ⁡ p θ ( τ ( i ) ) R ( τ ( i ) ) = 1 N ∑ i = 1 N ∑ t = 1 T ∂ ∂ θ log ⁡ π θ ( a t ( i ) ∣ s t ( i ) ) R ( τ t ( i ) ) \frac{\partial \mathcal{J}(\theta)}{\partial \theta} = \mathbb{E}_{\tau \sim p_{\theta}} \left[ \frac{\partial}{\partial \theta} \log p_{\theta}(\tau) R(\tau) \right] \\ \approx \frac{1}{N} \sum_{i=1}^{N} \frac{\partial}{\partial \theta} \log p_{\theta} (\tau^{(i)}) R(\tau^{(i)}) = \frac{1}{N} \sum_{i=1}^{N} \sum_{t=1}^{T} \frac{\partial}{\partial \theta} \log \pi_{\theta} (a_t^{(i)}|s_t^{(i)})R(\tau_t^{(i)}) θJ(θ)=Eτpθ[θlogpθ(τ)R(τ)]N1i=1Nθlogpθ(τ(i))R(τ(i))=N1i=1Nt=1Tθlogπθ(at(i)st(i))R(τt(i))
其中 τ ∼ p θ \tau \sim p_{\theta} τpθ。上述梯度的估计也被称为增强算法 [26]。该估计过程的直观解释为:行动过程通过不断“尝试”,调整每个动作所采取的概率,从而让具有更高回报的轨迹出现的概率更高。基本强化的一个重要概念是,它没有利用强化学习序列化属性的优势:因为它只考虑整个轨迹的总回报期望,而忽略了单个动作执行过程中更细粒度的奖励分配问题。


作为强化学习的变分推断

高层视角:整体推理问题

最大化函数 L \mathcal{L} L关于 q q q和参数 θ \theta θ的下界可以看成是强化学习中的一个示例。其中 q q q表示强化学习中的策略;潜在变量 z z z表示动作; log ⁡ p θ ( x , z i ) q θ ( z i ∣ x ) \log \frac{p_{\theta}(x,z_i)}{q_{\theta}(z_i|x)} logqθ(zix)pθ(x,zi)表示回报。等式 L \mathcal{L} L J \mathcal{J} J具有相同的形式,同样它们的梯度也具有类似的形式:这两种情况都是最大化一种 ∫ p θ ( y ) f ( y ) d y \int p_{\theta}(y)f(y)dy pθ(y)f(y)dy形式的期望,该形式依赖于参数 θ \theta θ和分布 p θ ( y ) p_{\theta}(y) pθ(y)。这种关联在文献[14]中曾被给出。

一般形式强化学习变分推断
最优化变量: θ \theta θ策略参数: θ \theta θ变分参数: θ \theta θ
集合变量: y y y轨迹: τ \tau τ潜在变量: z z z
分布: p θ ( y ) p_{\theta}(y) pθ(y)轨迹分布: p θ ( τ ) p_{\theta}(\tau) pθ(τ)先验分布: q θ ( z ∣ x ) q_{\theta}(z \lvert x) qθ(zx)
被积函数: θ \theta θ整体回报: R ( τ ) R( \tau ) R(τ)自由能: log ⁡ ( p ( x , z ) q θ ( z ∣ x ) ) \log \left( \frac{ p(x,z) }{ q_{\theta} (z \lvert x) } \right) log(qθ(zx)p(x,z))

表1:变分推断和强化学习的高层次关联关系。上述关联是针对特殊情况下一般性问题的优化 ∫ p θ ( y ) f ( y ) d y \int p_{\theta}(y)f(y)dy pθ(y)f(y)dy关于参数 θ \theta θ和分布 p θ ( y ) p_{\theta}(y) pθ(y)期望。

不同于大多数强化学习的设置,这里的回报依赖于策略的参数,而不是仅仅依赖于状态动作分布(请看文献[2,3,7,13]中的讨论);在实际情况中,在大多数情况下对于强化学习算法在推理问题的适用性中没有影响,特别对于使用策略网络的情况。

分解:引入推理结构

强化学习的关键点是利用一种优化结构(通常根据问题的序列化属性得到马尔科夫性)来创造更加巧妙的算法。类似地,可以利用先验概率 p p p和后验概率 q q q来探索一种接口从而创造一种结构化序列化的变分推断算法。强化学习中的概念和想法能够转化为推理问题中的新想法。重新考虑先验和后验概率的马尔科夫模型。变分下界可以分别为如下等式:
L ( q ) = E z [ log ⁡ p ( z 1 ) q ( z 1 ∣ x ) + p ( z 2 ∣ z 1 ) q ( z 2 ∣ x , z 1 ) + . . . + p ( z K ∣ z K − 1 ) q ( z K ∣ x , z K − 1 ) + log ⁡ p ( x ∣ z K ) ] = E z [ ∑ k = 1 K r ( z k , z k − 1 , x ) + r f ( z K , x ) ] \mathcal{L}(q)=\mathbb{E}_{z} \left[ \log \frac{p(z_1)}{q(z_1\lvert x)} + \frac{p(z_2\lvert z_1)}{q(z_2\lvert x, z_1)} +...+ \frac{p(z_K \lvert z_{K-1})}{ q(z_{K} \lvert x, z_{K-1} )} + \log p(x\lvert z_{K}) \right] \\ = \mathbb{E}_{z} \left[ \sum_{k=1}^{K} r(z_k,z_{k-1},x)+r_f(z_K,x) \right] L(q)=Ez[logq(z1x)p(z1)+q(z2x,z1)p(z2z1)+...+q(zKx,zK1)p(zKzK1)+logp(xzK)]=Ez[k=1Kr(zk,zk1,x)+rf(zK,x)]
其中 r ( z k , z k − 1 , x ) = log ⁡ ( p ( z k ∣ z k − 1 ) ) / q ( z k ∣ z k − 1 , x ) r(z_k,z_{k-1},x) = \log(p(z_k \lvert z_{k-1}))/q(z_k \lvert z_{k-1}, x) r(zk,zk1,x)=log(p(zkzk1))/q(zkzk1,x)可以看作是步骤 k k k的瞬时状态依赖的奖励,且 r f ( z K , x ) = log ⁡ p ( x ∣ z K ) r_f(z_K,x) = \log p(x\lvert z_{K}) rf(zK,x)=logp(xzK)为最终奖励。回顾 R k = ∑ k ′ = k K r k + r f R_k=\sum_{k'=k}^{K} r_{k} + r_f Rk=k=kKrk+rf为从步骤 k k k开始的回报。表2给出了变分推断和强化学习对于该问题的准确映射关系。值得注意的是,由变分推理问题得到了马尔可夫决策的一些特性:

  • 变分推理的马尔可夫决策过程结构取决于后验分布的结构(例如,变量在概率分布 q ( z ∣ x ) q(z\lvert x) q(zx)被采样的顺序)。
  • 当执行分段推理时(计算从数据点 x x x到后验概率 q ( z ∣ x ) q(z\lvert x) q(zx)的参数映射),数据点在变分马尔可夫决策过程中表现为环境 x x x。拥有环境(状态的一部分,对每个决策周期是随机的,但在单个决策周期中保持不变)在强化学习中并不常见(对于算法的适用性并没有影响)。
  • 状态由常量环境 x x x和动态状态 z k z_k zk组成。对于一个更复杂模型和后验分布,状态将环境和所采取的所有动作历史(即潜在变量)等函数组成(见附录B)。
  • 变分推理的状态转换是当前状态与动作之间的确定性函数;该问题的随机性源于对动作的选择。在强化学习中,环境本身通常也是随机的。然而这对于该问题同样没有实际影响。
内容强化学习变分推断
环境 x x x
动态状态 s t s_t st z k − 1 z_{k-1} zk1
状态 s t s_t st ( z k − 1 , x ) (z_{k-1},x) (zk1,x)
动作 a t a_t at z k ∼ q θ ( z k ∣ z k − 1 , x ) z_k \sim q_{\theta} (z_k\lvert z_{k-1},x) zkqθ(zkzk1,x)
转移函数 ( s t , a t ) → s t + 1 ∼ P ( s ∣ ( s ∣ s t , a t ) (s_t,a_t)\to s_{t+1} \sim P(s\lvert (s\lvert s_t,a_t) (st,at)st+1P(s(sst,at) ( ( z k − 1 , x ) , z k ) → ( z k , x ) ((z_{k-1},x),z_k) \to (z_{k},x) ((zk1,x),zk)(zk,x)
即时回报 r t r_t rt log ⁡ ( p ( z k ∣ z k − 1 , x ) q θ ( z k ∣ z k − 1 , x ) ) \log \left( \frac{p(z_k\lvert z_{k-1},x)}{q_{\theta}(z_k\lvert z_{k-1},x)} \right) log(qθ(zkzk1,x)p(zkzk1,x))
最终回报 0 0 0 log ⁡ p ( x ∣ z K ) \log p(x\lvert z_K) logp(xzK)

表2:变分推理和强化学习之间的细粒度关联。

利用强化学习技术探索推理问题的结构

这种表示方法是的推理与强化学习的联系更加紧密,并且让我们能够使用强化学习中的方法来降低强化评估器方差较高的问题。

降低与基准的方差:两个简单的见解可以减少强化学习随机优化目标函数的方差:(a)只有成功行动的奖励(由动作引起的)才是该动作的信息性奖励;(b)可以将采样的返回值与参考值(基准)进行比较。结果可以得到对梯度的估计为:
∂ L ( q θ ) ∂ θ = E z [ ∑ k = 1 K ∂ ∂ θ log ⁡ q θ ( z k ∣ z k − 1 , x ) ( R k − b k ( z k − 1 ) ) ] \frac{\partial \mathcal{L}(q_{\theta})}{\partial \theta} = \mathbb{E}_{z} \left[ \sum_{k=1}^{K} \frac{\partial}{\partial \theta} \log q_{\theta}(z_k\lvert z_{k-1},x)(R_{k}-b_k(z_{k-1})) \right] θL(qθ)=Ez[k=1Kθlogqθ(zkzk1,x)(Rkbk(zk1))]
其中 b k b_k bk是关于潜在变量 z k − 1 z_{k-1} zk1的任意函数(可知它不依赖于任何 z ≥ k z_{\geq k} zk)。它通常是一个学习函数。这两种修改都使梯度估计在期望中保持不变(这是因为梯度对数-概率密度函数的积分总是为0,具体证明见附录A)但会影响其方差。对于 b k b_k bk来说,一个直观而方便的选择是对价值函数(见文献[22])的近似,它被定义为状态 z z z中从 k k k起的未来预期收益 V k ( x , z ) = E q θ ( z k : K ∣ z k = z , x ) [ R k + 1 ( z k , . . . , z K , x ) ] V_{k}(x,z) = \mathbb{E}_{q_{\theta}(z_{k:K}\lvert z_k=z,x)}\left[ R_{k+1}(z_k,...,z_{K},x) \right] Vk(x,z)=Eqθ(zk:Kzk=z,x)[Rk+1(zk,...,zK,x)]

利用值函数减少方差:状态值函数旨在表示在服从策略 q θ q_{\theta} qθ条件下,当前处于 k k k步骤状态为 z k z_k zk的平均未来回报总和。对于等式 L ( q ) \mathcal{L}(q) L(q),可以通过递归的方式得到如下的值函数:
V k θ ( x , z k ) = E z k + 1 ∼ q ( z k + 1 ∣ x , z k ) [ r ( z k + 1 , z k , x ) + V k + 1 θ ( z k + 1 ) ] V K θ ( x , z K ) = log ⁡ p ( x ∣ z K ) V_{k}^{\theta}(x,z_k) = \mathbb{E}_{z_{k+1}\sim q(z_{k+1}\lvert x,z_k)}\left[ r(z_{k+1},z_k,x) + V_{k+1}^{\theta}(z_{k+1}) \right] \\ V_{K}^{\theta}(x,z_K) =\log p(x\lvert z_K) Vkθ(x,zk)=Ezk+1q(zk+1x,zk)[r(zk+1,zk,x)+Vk+1θ(zk+1)]VKθ(x,zK)=logp(xzK)
目标函数 L ( q θ ) \mathcal{L}(q_\theta) L(qθ)的梯度可以重写为:
∂ L ( q θ ) ∂ θ = ∑ k = 1 K ∂ ∂ θ log ⁡ q ( z k ∣ x , z k − 1 ) E [ r k ( z k , z k − 1 , x ) + V k θ ( x , z k ) ⏟ " a c t i o n v a l u e " − V k − 1 θ ( x , z k − 1 ) ⏟ " b a s e l i n e " ] \frac{\partial \mathcal{L}(q_{\theta})}{\partial \theta} = \\ \sum_{k=1}^{K} \frac{\partial}{\partial \theta} \log q(z_k \lvert x, z_{k-1}) \mathbb{E}\left[ \underbrace{r_k(z_k,z_{k-1},x) + V_k^{\theta}(x,z_k)}_{"action value"} - \underbrace{V_{k-1}^{\theta}(x,z_{k-1})}_{"baseline"} \right] θL(qθ)=k=1Kθlogq(zkx,zk1)E"actionvalue" rk(zk,zk1,x)+Vkθ(x,zk)"baseline" Vk1θ(x,zk1)
实际上我们不知道 V θ V^{\theta} Vθ,但是我们可以学习到关于参数 ψ \psi ψ的近似函数 V ϕ V^{\phi} Vϕ。在最简单的情况下,这是通过“回报回归”实现的,即我们最小化 E q ( z ∣ x ) [ ( R k + 1 − V ϕ ( x , z k ) ) 2 ] \mathbb{E}_{q(z|x)}\left[ \left( R_{k+1} - V^{\phi}(x,z_k) \right)^2 \right] Eq(zx)[(Rk+1Vϕ(x,zk))2]。但它也可以通过引导回归实现,类似于强化学习中的时间差异(TD)学习(如文献[22])。


总结

文本提供对于推理问题给出了一个全新的观点。我们希望这将能够为变分推理的研究者提供灵感,让他们通过强化学习来创建新的推理方案。我们使用两个特定的策略(基线和价值函数)来举例说明这一点。强化学习中的许多其它概念原则上都可以用于变分推理领域,如时间差异(TD)方法或探索策略,我们希望在未来的工作中展示它们在这方面的相关性。在这篇摘要文章中,我们着重讨论了似然函数估计量,它没有关于可微性的假设,而是一种类似的映射,适用于可微模型,并可以与可微模型和相关技术相结合[9,21,24]。


参考文献

[1] Jimmy Ba, Volodymyr Mnih, and Koray Kavukcuoglu. Multiple Object Recognition with Visual Attention. In ICLR’15. 2015.
[2] Leemon Baird and Andrew W Moore. Gradient descent for general reinforcement learning. Advances in Neural Information Processing Systems, pages 968–974, 1999.
[3] Jonathan Baxter and Peter L. Bartlett. Infinite-horizon policy-gradient estimation. J. Artif. Intell. Res. (JAIR), 15:319–350, 2001.
[4] David M Blei, Michael I Jordan, and John W Paisley. Variational bayesian inference with stochastic search. In Proceedings of the 29th International Conference on Machine Learning (ICML-12), pages 1367–1374, 2012.
[5] Peter Dayan and Geoffrey E Hinton. Using expectation-maximization for reinforcement learning. Neural Computation, 9(2):271–278, 1997.
[6] Marc Peter Deisenroth, Gerhard Neumann, Jan Peters, et al. A Survey on Policy Search for Robotics. Foundations and Trends in Robotics, 2(1-2):1–142, 2013.
[7] Peter W Glynn. Likelihood ratio gradient estimation for stochastic systems. Communications of the ACM, 33(10):75–84, 1990.
[8] Karol Gregor, Ivo Danihelka, Andriy Mnih, Charles Blundell, and DaanWierstra. Deep autoregressive networks. In Proceedings of the 31st International Conference on Machine Learning, pages 1242–1250, 2014.
[9] Nicolas Heess, Greg Wayne, David Silver, Timothy Lillicrap, Tom Erez, and Yuval Tassa. Gradient Learning Continuous Control Policies by Stochastic Value Gradients. Proceedings of the 2015 conference on Neural Information Processing Systems, 2015.
[10] Geoffrey E. Hinton, Brian Sallans, and Zoubin Ghahramani. A Hierarchical Community of Experts. In Michael I. Jordan, editor, Learning in Graphical Models. Kluwer Academic, 1997.
[11] Matthew D Hoffman, David M Blei, Chong Wang, and John Paisley. Stochastic variational inference. The Journal of Machine Learning Research, 14(1):1303–1347, 2013.
[12] Hilbert J Kappen, Vicenc¸ G´omez, and Manfred Opper. Optimal control as a graphical model inference problem. Machine learning, 87(2):159–182, 2012.
[13] Peter Marbach and John N Tsitsiklis. Simulation-based optimization of Markov reward processes. Automatic Control, IEEE Transactions on, 46(2):191–209, 2001.
[14] Andriy Mnih and Karol Gregor. Neural variational inference and learning in belief networks. In Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014, pages 1791–1799, 2014.
[15] Gerhard Neumann. Variational inference for policy search in changing situations. In Proceedings of the 28th International Conference on Machine Learning, ICML 2011, pages 817–824, 2011.
[16] Rajesh Ranganath, Sean Gerrish, and David Blei. Black box variational inference. In Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics, pages 814–822, 2014.
[17] Konrad Rawlik, Marc Toussaint, and Sethu Vijayakumar. On stochastic optimal control and reinforcement learning by approximate inference. In Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, pages 3052–3056. AAAI Press, 2013.
[18] Danilo J Rezende, Shakir Mohamed, and Daan Wierstra. Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In Proceedings of the 31st International Conference on Machine Learning (ICML-14), pages 1278–1286, 2014.
[19] Danilo Jimenez Rezende and Shakir Mohamed. Variational Inference with Normalizing Flows. Proceedings of the 32nd International Conference on Machine Learning (ICML-15), 2015.
[20] Tim Salimans. Markov chain Monte Carlo and variational inference: Bridging the gap. NIPS 2014 Workshop on Advances in Variational Inference, 2014.
[21] John Schulman, Nicolas Heess, Theophane Weber, and Pieter Abbeel. Gradient Estimation Using Stochastic Computation Graphs. Proceedings of the 2015 conference on Neural Information Processing Systems, 2015.
[22] Richard S. Sutton and Andrew G. Barto. Reinforcement learning: An introduction. MIT Press, Cambridge, MA, 1998.
[23] Emanuel Todorov. General duality between optimal control and estimation. In Decision and Control, 2008. CDC 2008. 47th IEEE Conference on, pages 4286–4292. IEEE, 2008.
[24] Emanuel Todorov and Weiwei Li. A generalized iterative LQG method for locally-optimal feedback control of constrained nonlinear stochastic systems. In American Control Conference, 2005. Proceedings of the 2005, pages 300–306. IEEE, 2005.
[25] Marc Toussaint and Amos Storkey. Probabilistic inference for solving discrete and continuous state Markov Decision Processes. In Proceedings of the 23rd international conference on Machine learning, pages 945–952. ACM, 2006.
[26] Ronald J . Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3-4):229–256, 1992.
[27] David Wingate and Theophane Weber. Automated variational inference in probabilistic programming. NIPS 2012 Workshop on Probabilistic Programming, 2013.
[28] Brian D Ziebart. Modeling purposeful adaptive behavior with the principle of maximum causal entropy. 2010.


附录A 似然函数估计器

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值