强化学习原理学习记录（1）2020-10-07

最新推荐文章于 2025-03-13 16:11:04 发布

wust_pang

最新推荐文章于 2025-03-13 16:11:04 发布

阅读量694

点赞数

本文链接：https://blog.csdn.net/m0_48007757/article/details/108948974

版权

强化学习专注于解决智能体的序贯决策问题，通过与环境交互学习最优策略。它与监督学习的区别在于数据类型，前者需要带有回报的交互数据。强化学习可分类为基于模型和无模型，基于值函数和直接策略搜索，以及正向和逆向。未来强化学习将更深入结合深度学习，与专业领域融合，并增强理论稳定性和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一,绪论：

1.强化学习要解决的问题：智能决策问题。更确切地说是序贯决策问题，序贯决策就是需要连续不断地做出决策，才能实现最终⽬标的问题。
2.强化学习如何解决问题：强化学习要解决的是序贯决策问题，它不关⼼输⼊⻓什么样，只关⼼当前输⼊下应该采⽤什么动作才能实现最终的⽬标，当前采⽤什么动作与最终的⽬标有关。也就是说当前采⽤什么动作，可以使得整个任务序列达到最优。如何使整个任务序列达到最优呢？这就需要智能体不断地与环境交互，不断尝试，智能体通过动作与环境进⾏交互时，环境会返给智能体⼀个当前的回报，智能体则根据当前的回报评估所采取的动作：有利于实现⽬标的动作被保留，不利于实现⽬标的动作被衰减。
3.强化学习与监督学习的异同点：强化学习和监督学习的共同点是两者都需要⼤量的数据进⾏训练，但是两者所需要的数据类型不同。监督学习需要的是多样化的标签数据，强化学习需要的是带有回报的交互数据。
4.强化学习的分类：
（1）根据是否依赖模型：分为基于模型的强化学习算法和⽆模型的强化学习算法
共同的：通过与环境交互获得数据
不同点：利⽤数据的⽅式不同。基于模型的强化学习算法利⽤与环境交互得到的数据学习系统或者环境模型，再基于模型进⾏序贯决策。⽆模型的强化学习算法则是直接利⽤与环境交互获得的数据改善⾃⾝的⾏为。⼀般来讲基于模型的强化学习算法效率要⽐⽆模型的强化学习算法效率更⾼，因为智能体在探索环境时可以利⽤模型信息。有些根本⽆法建⽴模型的任务只能利⽤⽆模型的强化学习算法。由于⽆模型的强化学习算法不需要建模，所以和基于模型的强化学习算法相⽐，更具有通⽤性。
（2）根据策略的更新和学习方法：根据策略的更新和学习⽅法，强化学习算法可分为基于值函数的强化学习算法、基于直接策略搜索的强化学习算法以及AC的⽅法。
基于值函数的强化学习⽅法：是指学习值函数，最终的策略根据值函数贪婪得到。也就是说，任意状态下，值函数最⼤的动作为当前最优策略
基于直接策略搜索的强化学习算法：⼀般是将策略参数化，学习实现⽬标的最优参数
基于AC的⽅法则：是联合使⽤值函数和直接策略搜索
（3）根据环境返回的回报函数是否已知：强化学习算法可以分为正向强化学习和逆向强化学习。
正向强化学习：回报函数是⼈为指定的，回报函数指定的强化学习算法称为正向强化学习
逆向强化学习：回报⽆法⼈为指定，如⽆⼈机的特效表演，这时可以通过机器学习的⽅法由函数⾃⼰学出来回报
ps：为了提升强化学习的效率和实⽤性，学者们⼜提出了很多强化学习算法，如分层强化学习、元强化学习、多智能体强化学习、关系强化学习和迁移强化学习等。
5.强化学习的发展趋势：
第⼀，强化学习算法与深度学习的结合会更加紧密。
第⼆，强化学习算法与专业知识结合得将更加紧密
第三，强化学习算法理论分析会更强，算法会更稳定和⾼效
第四，强化学习算法与脑科学、认知神经科学、记忆的联系会更紧密。