AI人工智能(调包侠)速成之路九(AlphaZero代码实战1:强化学习介绍)

前言

        AlphaGo战胜人类围棋冠军已经好几年过去了,这个话题已经不热了,国内介绍这个项目原理的技术文章也非常多。遗憾的是国内并没有出现几个类似的成功案例,这个问题值得玩味。是不是在实践的路上有很多隐形的关键问题没有公开出来,就算把AlphaGo的源码公开,我们拿过来也做不出一个成功的应用呢?


        AlphaGo成功之后DeepMind又放出了更加通用的 AlphaZero 的论文。AlphaZero综合应用了深度学习、启发式搜索MCTS、自对弈强化学习、神经网络共享(分类和回归问题使用同一个网络)、数据增强等等技术。纯粹靠自己跟自己下棋这样的“左右互搏”就练成了高手,战胜了前辈AlphaGo,令人炫目。

        可以预见AlphaZero系统的应用范围和前景都非常广泛,希望更多的爱好者能加入进来丰富应用案例,做出更多超越人类单项智力的软件系统。

什么是强化学习(Reinforcement Learning)

        强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。

强化学习原理

        强化学习原理简单说就是”胡罗卜加大棒“,建立一个封闭环境并通过明确的奖惩标识给出反馈信息,让神经网路在不断的试错过程中学习如何趋利避害,最后通过观察环境就能给出类似“人的直觉”一样的行为,并能从不断试错的过程中明白奖惩规则的规律,并能依此给当前所处环境的优劣给出一个客观评价。神经网络根据环境状态一步一步的寻找动作轨迹,使累计回报最大,目的就是找到最优的策略。

马尔科夫决策过程

        在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为马尔科夫决策过程。
        马尔可夫决策过程简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。

马尔科夫决策要求:

  1. 能够检测到理想的状态。

  2. 可以多次尝试(死了重来、输了重来等)。

  3. 系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。在决策过程中还和当前采取的动作有关。

     

AlphaZero代码实战

        作为代码实战前的准备,这里简单介绍了相关的背景知识。强化学习求解方法很多,下篇文章介绍AlphaZero使用的蒙特卡洛方法。并动手将学到的想法转换成代码。后续会通过一个五子棋AI的案例把AlphaZero系统的代码一一实现。

 

AlphaZero代码实战系列 源代码打包
下载地址:https://download.csdn.net/download/askmeaskyou/12931806

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值