一,绪论:
1.强化学习要解决的问题:智能决策问题。更确切地说是序贯决策问题,序贯决策就是 需要连续不断地做出决策,才能实现最终⽬标的问题。
2.强化学习如何解决问题:强化学习要解决的是序贯决策问题,它不关⼼输⼊ ⻓什么样,只关⼼当前输⼊下应该采⽤什么动作才能实现最终的⽬标,当前采⽤什么动作与最终的⽬标有关。也就是说当前采⽤什么动 作,可以使得整个任务序列达到最优。如何使整个任务序列达到最优呢? 这就需要智能体不断地与环境交互,不断尝试,智能体通过动作与环境进⾏交互时,环境会返给智能体⼀个当 前的回报,智能体则根据当前的回报评估所采取的动作:有利于实现⽬标的动作被保留,不利于实现⽬标的动作被衰减。
3.强化学习与监督学习的异同点:强化学习和 监督学习的共同点是两者都需要⼤量的数据进⾏训练,但是两者所需要的 数据类型不同。监督学习需要的是多样化的标签数据,强化学习需要的是 带有回报的交互数据。
4.强化学习的分类:
(1)根据是否依赖模型:分为基于模型的强化学习算法和⽆模型的强化学习算法
共同的:通过与环境交互获得 数据
不同点:利⽤数据的⽅式不同。基于模型的强化学习算法利⽤与环 境交互得到的数据学习系统或者环境模型,再基于模型进⾏序贯决策。⽆ 模型的强化学习算法则是直接利⽤与环境交互获得的数据改善⾃⾝的⾏为。⼀般来讲基于模型的强化学习算法效率要⽐⽆ 模型的强化学习算法效率更⾼,因为智能体在探索环境时可以利⽤模型信息。有些根本⽆法建⽴模型的任务只能利⽤⽆模型的强化学习算 法。由于⽆模型的强化学习算法不需要建模,所以和基于模型的强化学习 算法相⽐,更具有通⽤性。
(2)根据策略的更新和学习方法:根据策略的更新和学习⽅法,强化学习算法可分为基于值函数的 强化学习算法、基于直接策略搜索的强化学习算法以及AC的⽅法。
基于值函数的强化学习⽅法:是指学习值函数,最终的策略根据值函数贪婪得 到。也就是说,任意状态下,值函数最⼤的动作为当前最优策略
基于直接策略搜索的强化学习算法:⼀般是将策略参数化,学习实现⽬标的最优参数
基于AC的⽅法则:是联合使⽤值函数和直接策略搜索
(3)根据环境返回的回报函数是否已知:强化学习算法可以分为正向 强化学习和逆向强化学习。
正向强化学习:回报函数是⼈为指定的,回报 函数指定的强化学习算法称为正向强化学习
逆向强化学习:回报⽆法⼈为指 定,如⽆⼈机的特效表演,这时可以通过机器学习的⽅法由函数⾃⼰学出 来回报
ps:为了提升强化学习的效率和实⽤性,学者们⼜提出了很多强化学习算 法,如分层强化学习、元强化学习、多智能体强化学习、关系强化学习和 迁移强化学习等。
5.强化学习的发展趋势:
第⼀,强化学习算法与深度学习的结合会更加紧密。
第⼆,强化学习算法与专业知识结合得将更加紧密
第三,强化学习算法理论分析会更强,算法会更稳定和⾼效
第四,强化学习算法与脑科学、认知神经科学、记忆的联系会更紧 密。