本文是一个综述,主要说一下写作目的、课程的主要内容、记录一下时间进度等等。
写作目的:
机器学习和深度学习所引领的这一波人工智能的热潮好像有所降温,但是在研究领域其热度还一直在持续,特别在某些领域,例如深度强化学习,研究的热度还是处于上升趋势,因为大家其实都认识到了一个问题:复杂的控制问题很难有好的解决方式,用学习的方式去学会一种控制方式是一个不错的选择,或者说在没有太多的选择的情况下,起码它是一个选择。
世界上的大部分问题可能都可以泛泛的称为一个决策问题,例如人每天都在做很多的决策,吃什么?去哪里?怎么去?等等;机构、部门、公司、国家都在做出决策。很多决策问题可以等同于控制问题,因为它们都是在解决一个输入和输出的问题,也就是给定一个输入去找到它最合理的输出。所以后面的叙述中我们并不严格的区分控制和决策,基本就是认为它们是同义词。
强化学习解决的问题是在一个时间序列上的决策问题。就是说,在一段时间上需要做出多次决策,以便最终能达到一个好的结果。这样的例子非常多,例如:下棋、打游戏、控制机器人完成任务、库存的动态管理、智能交易,甚至是战争、职业规划、人生等等。强化学习为解决这种问题提供了一个框架,其实就是定义一些概念、规则和算法。
虽然强化学习提供了一个框架,但是很多问题是复杂的,如何具体解决依然面临着很大的困难。例如下棋、游戏和机器人控制等