深度学习求解魔方新方法!诺丁汉大学研究团队提出适应度函数

作者 | 凌霄

责编 | 寇雪芹

头图 | 下载于视觉中国

人工智能和人类之间的“竞赛”一直都是热门的研究话题,AlphaGo 战胜了人类围棋玩家,AlphaZero 在围棋比赛中击败了AlphaGo 及其更高版本,并在国际象棋比赛中击败了顶级象棋引擎之一 Stockfish。在 DOTA2 多人实时战略游戏中,OpenAI Five 战胜了世界冠军战队。

魔方作为一项益智游戏,最早是由匈牙利布达佩斯建筑学院厄尔诺·鲁比克教授于1974 年发明,其风靡程度至今未衰。相比之下,魔方的解决方案涉及更多的象征、数学和抽象思维,因此能够破解这一难题的深度学习机器,将人工智能技术应用于求解魔方,更有利于建立一个可以思考、推理、计划和制定决策的系统。

魔方是一个非常复杂的谜题,一般人解魔方至少也需要 50 步,但是任何一个组合最多只有 20 个步骤。众所周知,魔方的最终目标,就是保证每条边、每个面都为同一颜色。考虑到立方体有数十亿条可行路径,这个任务并不简单,更无法通过随机移动解决。

诺丁汉大学副教授科林·约翰逊团队研究了一种深度学习技术,可以从一组解决问题的样本解决方案中学习所谓的“适应度函数”,最初被训练用来解决魔方。因此,科林·约翰逊团队采取的方法是,通过学习单独完成这些步骤中的每一步来尝试解决问题。研究人员提出一种新的适应度函数,可应用于演化算法和爬山算法。不需要直接从误差函数中定义拟合度,而是使用预训练过程从问题类的一组已解例子中学习拟合函数。

图 1:魔方 (图源:https://techxplore.com/news/2021-01-artificial-intelligence- humans.html)

约翰逊设计的这项技术主要基于两种方法:逐步学习和使用深层神经网络。在求解魔方的过程中,这种方法是试图一步一步地解读它,而不是一次学习求解整个魔方。即实际旋转中,尝试移动魔方以实现更简单的配置,多次重复此步骤,直到解决多维数据集。

研究人员认为,与其让程序试图学习如何求解整个多维数据集,不如让它学习如何将多维数据集转换成一个更简单的配置,然后采用这个更简单的配置,依此类推,直到它被求解。这种结构意味着解决方案的每一步都要简单得多。基于这种想法,研究人员首先设计了一种方法,可以通过对立方体进行数千次的模拟来估计立方体的混乱程度。在估计了魔方的混乱程度后,研究人员再使用深度神经网络来识别等待求解的魔方,最后,使用它积累的数据来解决立方体问题。

该项研究是使用预训练过程从问题类的一组已解例子中学习拟合函数,即 Learned Guidance Functions (LGFs),其输入是一个搜索空间和一组现有的解决方案轨迹。例如,在蛋白质折叠问题中,是三维结构空间中的点序列从一个序列到一个完全折叠的结构。对于一个

图像去噪的问题,这将是一个序列的图像从一个干净的图像到一个非常嘈杂的图像。

在该项研究中,LGFs 构造如下图 2 中伪代码所示。每次移动(在初始状态下)时,由当前状态和达到该状态的移动次数组成的一对将添加到训练集中,如下图 3 所示。

图 2:伪代码 (图源:Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665)

图 3:数据集构建 (图源:Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665)

 

然后,通过应用监督学习算法,特别是在 TensorFlow 上的 Keras 框架中实现的深度神经网络,从该训练集构造 LGFs。使用的特定网络如下图所示,通过 Dropout 用于鼓励泛化和防止过度拟合。损失函数采用分类交叉熵函数,采用 Adam 优化算法,未来,研究人员准备将应用参数和网络形状的元学习来优化生成的模型。如图 4 所示。 

图 4:用于训练的 Keras 深度学习网络 (图源:Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665)

一旦学习到一个 LGFs,它就可以应用于手头的任务,即获取立方体的一个置乱状态, 并在搜索空间中移动,以找到解的状态。这是使用进化策略的一个变体来完成的。复制多维数据集的初始状态以填充总体。然后,在每一代中,通过对群体中的每一个成员进行随机移动而产生若干突变体。

任何被 LGFs 预测为比当前解更接近解的解都被放入一个中间种群池中,并通过均匀随机抽样产生一个新的世代,从这个种群池中进行替换,使种群达到最大规模,如下图所示,如下图 5 所示。研究人员认为,如果一个问题存在一个完美的 LGFs,就可以用最少的步骤来解决这个问题。从任意置乱状态开始,可以检查从该状态开始的所有可能的移动。其中至少有一个在移动到目标状态的次数上会更接近,然后可以将系统的状态移动到最接近的状态,然后重复,直到到达目标状态。

图 5:轨迹搜索与重建 (图源:Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665)

 

在研究中,误差主要有两种形式,其一是魔方问题形成训练集。其二是模型做出错误预测的地方。基于这些原因,一个真正的 LGFs 的适应度地形仍然会有局部极小值。

此外,研究人员评估了该项研究中的技术,将其与以前开发的方法进行了比较,例如基于随机森林的LGFs 方法、基于传统误差适应度的基线方法以及文献中的其他方法进行了比较。与基于随机森林的 LGFs 相比,它在求解频率和所需模型大小方面具有优势;然而,对于更复杂的问题,所需的代数更大。该项研究中的深度学习技术与所有这些替代方法相比都比较有利,同时也突出了分步处理任务的优势。这说明了如何从现有的解决方案中学习适应度函数,而不是由用户提供,从而增加了人工智能搜索过程的自主性。

然而这种研究方法与强化学习中学习价值函数的理念有相似之处,强化学习是通过从搜索过程中发现的奖励中回溯来计算这一点。在该项研究中,有一个显式训练集,囊括了成功状态下的数据,可以将其应用到学习的价值函数强化学习。值得注意的是,在机器学习中, 从一组丰富的行为轨迹而不仅仅是从一个标量奖励函数中学习的想法变得越来越突出,很多的研究也在尝试运用这种方法。

目前研究人员只是利用这种渐进式学习技术来解决魔方,但是,求解魔方只是该项技术运用的简单例子,该项研究中的策略和价值学习方法的结合可以解决更复杂的近似问题,也是未来研究的重要方向。

首先,使用自动化机器学习方法优化深度学习系统有很大的空间来优化系统的参数和结构。其次,还有一些进一步的实验将进一步调查这种行为:调查这种方法中重新初始化的频率和影响,使用景观平滑度的测量来了解 LGF 对景观的影响,并对不同的人口进行实验大小。最后,该方法还可以应用于许多其他问题,例如,蛋白质在生物细胞内折叠的方式、音频和视频文件的去噪、音频转录等。如去除旧录音(如早期留声机唱片)中的噪音之类的问题,需要消除不同类型的失真——回声、静态、可变速度——但每次录制都需要不同的策略。如果能够了解什么是“干净的录音”,什么是“稍微失真的录音”,那么可以尝试通过这种逐步的方式解决这类问题。”

人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。基于人工智能技术, 人类已经制造了能够驱动汽车、合成化合物、折叠蛋白质和探测高能粒子的计算机。但是, 这些AI 算法无法解释其决策背后的思维过程。当人类能够利用人工智能技术折叠蛋白质不同结构的同时,也希望人工智能技术能够告诉研究人员更多关于蛋白质结构背后的生物学知识,而不只是仅仅完成折叠任务。

人工智能技术背后的思想目前是我们人类所无法企及的,AIs 造就了计算机科学界所说的“黑匣子”。黑匣子 AI 只是吐出解决方案,而没有给出解决方案的理由。AI 决策过程的黑匣子问题一直是AI 领域最大的担忧之一。几十年来,计算机科学家一直试图打开这个黑匣子,最近的研究表明,许多人工智能算法实际上确实以类似于人类的方式思考。例如,受过识别动物训练的计算机将了解不同类型的眼睛和耳朵,并将这些信息放在一起,以正确识别动物。

约翰逊教授的研究也正致力于开发人工智能算法,以人类能够理解的方式解释人工智能技术,并将该技术应用于更多的领域。如果人类能够打开这个“黑匣子”,解释 AI 背后的奥秘,这将是一个巨大的飞跃,可以避免每个人似乎都很担心的机器人启示,人工智能也将能够发现和教导人们关于尚未被发现的世界的新事实,从而带来新的创新和应用。

 

参考文献:

1. A deep learning technique to solve Rubik's cube and other problems step-by-step,

 https://techxplore.com/news/2021-02-deep-technique-rubik-cube-problems.html.

2. Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665

3. Howexplainableartificialintelligencecanhelphumansinnovate, https://techxplore.com/news/2021-01-artificial-intelligence-humans.html.

更多精彩推荐
☞一口一个,超灵活的Python迷你项目☞疫情期间网络攻击花样翻新,全年 81748 起安全事件背后暗藏规律☞用数据分析《你好,李焕英》“斐妈”爆红的真相☞最低售价17999元,华为发布新一代折叠屏手机Mate X2
点分享点收藏点点赞点在看
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值