知识概要
本文章内容为【百度飞桨深度学习学院系列课程-强化学习入门】的学习笔记整理与总结
强化学习(RL,Reinforcement Learning)起源于控制论,用于解决控制与决策问题,与监督学习、非监督学习并称现行“三大机器学习”算法。当下也有许多人在研究并采用一种被称作“半监督学习”的机器学习算法,但其本质上仍为两种监督学习的技术融合。
作为当今AI领域颇负盛名的DeepMind公司的“灵魂级”人物,强化学习鼻祖Richard S.Sutton大神在其闻名遐迩的《Reinforcement Learning: An Introduction(Second Edition)》一书中系统性整合梳理了强化学习当下的技术理论与思想。而百度飞浆团队所推出的该强化学习入门课程便是围绕着该书的理论框架所展开的,同时结合了其自主研发的强化学习框架库PARL,将RL问题的算法、问题环境、智能体建模三者得以更为有效的“解耦”,很大程度上解决了RL初学者理论学习的同时在进行必要实践上的困难,也在一定程度上为未来国内更多领域科研或业界人士采用RL进行问题建模与解决的落地应用降低了理论与实践门槛!
解决问题类型
强化学习原则上可以用于解决所有决策类(主要为序贯决策)问题,当下应用场景包括但不限于游戏(马里奥、Atari、Alpha Go、星际争霸、王者荣耀等)、机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)、用户交互(推荐、广告、NLP等)、交通(路径规划、交通灯、拥堵管理等)、资源调度(航空、电力、物流、带宽、功率等)、金融(量