强化学习的分类方法

最新推荐文章于 2024-07-18 10:38:04 发布

csdn_LYY

最新推荐文章于 2024-07-18 10:38:04 发布

阅读量3.8k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/CSDN_LYY/article/details/103857163

版权

本文介绍了强化学习的不同分类方法，包括Model-free与Model-based、基于概率和基于价值、回合更新与单步更新、在线学习与离线学习。通过这些分类，帮助读者理解Q Learning、SARSA、Policy Gradients等算法的差异，并探讨了各方法在实际应用中的优缺点。

摘要由CSDN通过智能技术生成

总体认识

在这里插入图片描述

强化学习是很大的概念，他包含了很多种算法，我们也会一一提到其中一些比较有名的算法，比如有通过行为的价值来选取特定行为的方法，包括使用表格学习的Q Learning方法，sarsa等，使用神经网络学习的Deep Q Network，还有直接输出行为的policy gradients，又或者了解所处的环境，建模出一个虚拟的环境并从虚拟的环境中学习等等。

了解强化学习中常用到的几种方法，以及他们的区别，对我们根据特定问题选择方法时很有帮助。强化学习是一个大概念，发展历史也不短，有很多中不同方法。比如说比较知名的控制方法Q Learning，policy gradients，还有基于对环境的理解的model-based RL等等。接下来我们通过分类的方式来了解他们的区别。

Model-free 和 Model-based

在这里插入图片描述

我们可以将所有强化学习的方法分为理不理解所处的环境，如果我们不尝试去理解环境，环境给了我们什么就是什么。我们把这种方法叫做model-free，这里的model是用模型来表示环境，理解了环境也就是学会了用一个模型来代表环境，所以这种就是model-based方法。我们假设，现在环境是我们的时间，我们的机器人在这个世界里玩