导读
从一开始的AlphaGo击败世界冠军、到今天的自然语言处理、自动驾驶等,这与机器学习之强化学习算法息息相关。这股技术热浪也在逐年上升中。本文通俗语言简洁强化学习原理,马尔科夫过程,以及深度强化学习的应用。
概论
随着近些年人工智能领域的发展,机器学习技术被分为监督学习、无监督学习和强化学习三大类。其中对监督学习的研究最为广泛,该方法旨在通过已有的数据集,根据输入输出关系,建立一个最优模型,即给数据贴上标签,教会机器按照我们的想法做事情;无监督学习是根据输入的数据,主动寻找数据、特征之间的关系,即数据无标签,机器主动去学习搜索关系;强化学习则是介于监督和无监督之间的一种学习方式,即通过一种试错的方法,目标是根据输入输出的数据让机器在某个特定的环境中能做出最佳决策方案。
强化学习(Reinforcement Learning ,RL)在人工智能领域内已有了一席之地。它被广泛的应用在博弈、决策等领域。RL主要核心思想即智能体与环境之间的交互,目标在训练前就已设定,目的就是让智能体不断地根据设定累计奖励值,找到一个最优的动作策略实现目标。
强化学习应用的浪潮里也离不开深度学习的支撑,深度学习具有较强的感知能力,提升强化学习算法里获取状态信息等能力,使得强化学习具有更强的鲁棒性。对深度学习模型研究也层出不穷——卷积神经网络(CNN),循环神经网络(RNN)等。追溯强化学习兴起源于谷歌的人工智能团队在2016年的AlphaGo事件。在一场万人瞩目的比赛中AlphaGo首次击败世界冠军李世石。由此强化学习也逐渐被众人做关注。
本文意在概述强化学习原理、以AlphaGo、自然语言处理、自动驾