Human-level control through deep reinforcement learning(算法部分翻译)

Human-level control through deep reinforcement learning算法    在一系列动作、观察和奖励中,我们考虑代理与环境交互的任务,在这种情况下是雅达利仿真器。在每个时间步,代理从合法游戏动作集合中选择一个动作ata_tat​,A={1,...K}\Alpha=\{1,...K\}A={1,...K}。该动作被传递给仿真器,并修改其内部状态和游戏分数。一般来说,环境可能是随机的。代理不观察模拟器的内部状态;相反,代理观察来自仿真器的图像xt∈Rdx_t\i
摘要由CSDN通过智能技术生成

Human-level control through deep reinforcement learning

算法

    在一系列动作、观察和奖励中,我们考虑代理与环境交互的任务,在这种情况下是雅达利仿真器。在每个时间步,代理从合法游戏动作集合中选择一个动作 a t a_t at A = { 1 , . . . K } \Alpha=\{1,...K\} A={ 1,...K}。该动作被传递给仿真器,并修改其内部状态和游戏分数。一般来说,环境可能是随机的。代理不观察模拟器的内部状态;相反,代理观察来自仿真器的图像 x t ∈ R d x_t\in{R^d} xtRd,它是表示当前屏幕的像素值的向量。此外,它还会收到代表游戏分数变化的奖励 r t r_t rt。请注意,一般来说,游戏分数可能取决于整个先前的行动和观察序列;关于一个动作的反馈可能只有在几千个时间步骤过去之后才被接收。
    因为代理只观察当前屏幕,所以任务只有部分被观察到,并且许多仿真器状态在感知上是混叠的(也就是说,不可能仅从当前屏幕 x t x_t xt完全理解当前情况)。因此,动作和观察的序列 s t = x 1 , a 1 , x 2 , . . . , a t − 1 , x t s_t=x_1,a_1,x_2,...,a_{t-1},x_t st=x1,a1,x2,...,at1,xt,被输入到算法,然后算法根据这些序列学习游戏策略。模拟器中的所有序列都假设在有限的时间步长内终止。这种形式产生了一个大型但有限的马尔可夫决策过程(MDP),其中每个序列是一个不同的状态。因此,我们可以对MDPs应用标准的强化学习方法,简单地通过使用完整的序列 s t s_t st作为时间 t t t的状态表示。
    代理的目标是通过以最大化未来回报的方式选择动作来与仿真器交互。我们做了一个标准的假设,即未来的奖励每一时间步都要有一个 γ \gamma γ倍的折扣(自始至终 γ \gamma γ设定为0.99)。同时定义未来时刻 t t t的折扣回报为 R t = ∑ t ′ = t T γ t ′ − t r t ′ {R_t}=\sum_{t'=t}^T\gamma^{t'-t}r_{t'} Rt=t=tTγttrt T T T是游戏结束时刻。定义最优动作值函数 Q ∗ ( s , a ) Q^*(s,a) Q(s,a)为遵循任何政策可获得的最大预期回报。在看到一些序列 s s s然后采取一些动作 a a a之后, Q ∗ ( s , a ) = m a x E [ R t ∣ s t = s , a t = a , π ] Q^*(s,a)=maxE[R_t|s_t=s,a_t=a,\pi] Q(s,a)=maxE[Rtst=s,at=a

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值