论文翻译
熊舍尼奥
这个作者很懒,什么都没留下…
展开
-
Human-level control through deep reinforcement learning(算法部分翻译)
Human-level control through deep reinforcement learning 算法 在一系列动作、观察和奖励中,我们考虑代理与环境交互的任务,在这种情况下是雅达利仿真器。在每个时间步,代理从合法游戏动作集合中选择一个动作ata_tat,A={1,...K}\Alpha=\{1,...K\}A={1,...K}。该动作被传递给仿真器,并修改其内部状态和游戏分数。一般来说,环境可能是随机的。代理不观察模拟器的内部状态;相反,代理观察来自仿真器的图像xt∈Rdx_t\i原创 2020-12-19 15:36:15 · 643 阅读 · 1 评论 -
射频通信系统中信息年龄优化的强化学习框架(论文翻译)
射频通信系统中信息年龄优化的强化学习框架 摘要 本文研究了一种实时监控系统,在该系统中,多个源节点负责向一个公共目的节点发送更新包,以保持目的地信息的新鲜性。由于在所有源节点中更换电池或进行充电并不总是可行,我们认为节点是通过目的地的无线能量传输(WET)供电的。对于此设置,我们研究了一种最优在线采样策略(称为年龄最优策略),此策略联合优化无线能量传输和更新包传输的调度,目标是使目的地节点不同物理进程(源节点观测到的)的长期平均加权信息年限(AoI)值最小化,称为sum-AoI。为了解决这一优化问题,我们首原创 2020-10-24 21:09:33 · 2236 阅读 · 0 评论