![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
浅唱丶
这个作者很懒,什么都没留下…
展开
-
强化学习论文笔记:Real-Time Reinforcement Learning
Real-time Reinforcement Learning简介NeurIPS 2019上蒙特利尔大学的工作在连续时间的决策任务中,环境在动作选择时是实时变化的。作者定义了实时马尔可夫决策过程(RTMDP)并提出强化学习算法Real-Time Actor-Critic(RTAC),相比于传统方法能够更好地学习实时环境下的最优策略问题存在动作选择延迟的连续时间马尔可夫环境下的实时决策问题方法智能体与环境的两种交互方式回合交互:串行,决...原创 2020-07-31 18:58:01 · 1189 阅读 · 0 评论 -
Solving Rubik's Cube with a Robot Hand:OpenAI训练机械手臂解魔方
说起《终结者》系列电影,我想最令人印象深刻的就是阿诺.施瓦辛格所饰演的T-800机器人,他那像人的手一样灵活的机械骨骼手臂可以说是相当的深入人心。继会玩DOTA的OpenAI Five后,人工智能研究组织OpenAI近日再次给了我们一个惊喜:他们的机器人已经学会使用一只机械手臂复原经典的三阶魔方。机械手臂是机械人技术领域中得到最广泛实际应用的自动化机械装置,在工业制造、医学治疗、娱乐服务、军事...原创 2020-04-11 17:32:08 · 1412 阅读 · 0 评论 -
强化学习论文笔记:Soft Actor Critic算法
无模型(model-free)的深度强化学习算法已经在一系列具有挑战性的决策制定和控制任务中得到了证明。然而,相比于基于模型(model-based)的算法,无模型算法通常面临两大挑战:非常高的样本复杂性和脆弱的收敛特性,这需要细致的超参数调优。这两个挑战严重限制了这些方法在复杂的现实世界领域的适用性。在这个框架中,参与者的目标是最大化期望的回报,同时最大化熵。也就是说,在完成任务的同时尽可能随机...原创 2020-04-10 20:13:41 · 3574 阅读 · 0 评论 -
OpenAI Five:人工智能进化的新方向
近十年来,人工智能的研究人员们一直在尝试将游戏用作测试和评估人工智能系统的方法。得益于算法的发展和计算能力的增长,研究人员们开始寻求攻克越来越复杂的游戏,这些游戏拥有可以用来解决科学和现实问题所需的诸多要素。从最初的Atari游戏(乒乓球、打砖块),到后来的围棋和象棋,再到即时战略游戏星际争霸系列,人类正在一步一步地向通用人工智能迈进。原创 2019-08-01 10:21:47 · 1827 阅读 · 0 评论