强化学习
文章平均质量分 68
HenrySmale
张恒汝,博士,西南石油大学教授,硕士生导师,机器学习研究中心副主任,四川省学术和技术带头人后备人选,四川省通信管理局工业互联网领域入库专家,教育部产学合作协同育人项目入库专家,CCF、ACM会员,CAAI粒计算与知识发现专委会委员。
展开
-
Mastering 2048 With Delayed Temporal Coherence Learning, Multistage Weight Promotion论文分享
0 摘要2048 是一款引人入胜的单人非确定性视频益智游戏,由于简单的规则和难以掌握的游戏玩法,近年来广受欢迎。由于 2048 可以方便地嵌入到离散状态马尔可夫决策过程框架中,我们将其视为评估强化学习中现有和新方法的测试平台。为了开发一个强大的 2048 播放程序,我们采用时间差异学习和系统的 n 元组网络。我们表明,这种基本方法可以通过时间相干学习、具有权重提升的多级函数逼近器、轮播整形和冗余编码得到显着改进。此外,我们演示了如何利用 n 元组网络的特性,通过延迟(衰减)更新和应用无锁乐观并行性来轻松利原创 2022-04-22 11:47:31 · 1727 阅读 · 0 评论 -
Mathematical Analysis of 2048, The Game论文分享
0 摘要游戏 2048 席卷了互联网,产生了无数的盗版。 世界各地的人们倾注了数百万小时试图创造 2048 棋子。 除了令人上瘾的游戏外,该游戏还提供了探索数学的有趣机会。 本文试图通过数学归纳法、数论、模糊论和拓扑学对博弈进行数学分析,在此过程中也试图找到确保胜利的最优策略。关键词:数学分析,2048,帕斯卡三角 (Pascals Triangle),优化1 引言2048 是由Gabriele Cirulli 开发的滑块益智游戏。 这是一个在 4x4 网格上玩的游戏,棋子编号为 2n2^n2n,其原创 2022-04-20 17:24:12 · 2464 阅读 · 0 评论 -
From AlphaGo Zero to 2048论文分享
1 摘要近年来,游戏 2048 获得了巨大的人气 [6]。游戏允许玩家移动屏幕上的数字(2 的幂,例如 2、4、8、16 等),总和至少为 2048。因为它只有 4 个动作,所以很容易上手: 上、下、左、右。但是,很难获得大于或等于 2048 的数字,因为您在当前状态下所做的每个操作都会导致数百个不可预知的结果。在本文中,我们提出了一种用于 AlphaGo Zero 和 2048 游戏的类似算法,具有独特的奖励和惩罚系统,以提高人工智能 (AI) 的自学速度并为 AI的自动播放模式获得更高的分数。此外,基原创 2022-04-17 10:32:39 · 2475 阅读 · 0 评论 -
如何理解马尔可夫决策过程?
1 引言马尔可夫性:无后效性,指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关;马尔可夫链(Markov Chain, MC):系统的下一个状态只与当前状态相关;马尔可夫决策过程(Markov Decision Process, MDP):具有马尔可夫性,与MC不同的是MDP还考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。以下棋为例:我们在某个局面(状态sis_isi)走了一步(动作aia_iai),这时对手的选择(导致下个状态si+1s_{i+1}si+1原创 2022-03-21 15:22:14 · 1810 阅读 · 0 评论