强化学习知识总结

最新推荐文章于 2024-01-18 15:16:48 发布

月下独听雪

最新推荐文章于 2024-01-18 15:16:48 发布

阅读量414

点赞数 1

文章标签： python 算法强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39094534/article/details/108616444

版权

本文总结了强化学习的基本概念，包括与监督学习、无监督学习的区别，Model-Free与Model-Based，Policy-Based和Value-Based，On-Policy和Off-Policy的差异，以及Agent的奖励与回报函数。通过这些知识点，帮助读者建立强化学习的系统理解。

摘要由CSDN通过智能技术生成

参考文章
研一接触了强化学习，然后对其就产生了很大的兴趣。虽然有在莫烦Python上学习，也自己做过很简单的项目，但是之前对RL的学习比较混乱并不系统。正好看到这篇文章，感觉对自己有很大的帮助，就根据作者列出的知识点进行扩展学习。

1. 区分强化学习、监督学习和无监督学习

首先讲下监督学习与无监督学习，这两种方法是机器学习中常用到的手段。监督学习是通过训练样本来训练得到一个最优的模型，其主要应用就分类问题。利用这个模型可以将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，进而具有了对未知数据进行分类的能力。
而无监督学习与监督学习的主要不同就在于无监督学习不需要训练样本，其典型的例子就是聚类问题(如K-means算法)，主要目的就是将相似的东西聚为一类就ok。
强化学习则是让计算机自己去学会知识，或是会学解决问题的方法与规律，当然也不需要样本来训练。而让计算机找到解决问题方法就需要让它不断地去探索与试错，而我们只需要设计一个评分机制，对计算执行的动作进行一个评判来判断其是好是坏。这样让计算通过不断地试错，同时借助评分机制在这两方面的帮助下进而能找到解决问题的最优方法。

2. 区分Model-Free和Model-Based

强化学习分类图
Model-free就是不去学习和理解环境，环境给出什么信息就是什么信息，常见的方法有policy optimization和Q-learning。

Model-Based是去学习和理解环境，学会用一个模型来模拟环境，通过模拟的环境来得到反馈。Model-Based比Model-Free多了模拟环境，通过模拟环境预判接下来会发生的所有情况，然后选择最佳的情况。

3.区分Policy-Based和Value-Based

Policy-Based的方法直接输出下一步动作的概率，根据概率来选取动作。但不一定概率最高就会选择该动作，还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有policy gradients。

Value-Based的方法输出的是动作的价值，选择价值最高的动作。适用于非连续的动作。常见的方法有Q-learning和Sarsa。

4.区分On-Policy和Off-Policy

在线学习（on-policy）指的是学习的过程agent必须参与其中，典型的算法为Sarsa。

离线学习（off-policy）指的是既可以自己参与其中，也可以根据他人学习过程进行学习。典型的方法是Q-learning，已经Deep-Q-Network。

5. 区分强化学习中Agent的实际奖励 $r$ 和 $R e t u r n (s, a)$

对于Agent实际的奖励，是其在环境中状态s下执行动作a后由环境(或说是我们自己设置的评分机制)反馈给Agent的单步奖励值。
而对于 $R e t u r n (s, a)$ 是在状态s下，对往后n步的奖励值组合。强化学习的目的就是最大化 $R e t u r n (s, a)$ ，Agent执行的每一步都是最优的决策。

6.强化学习中的策略(Policy)

$\pi(s)\rightarrow a$

最低0.47元/天解锁文章

月下独听雪

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。