强化学习知识总结

参考文章
研一接触了强化学习,然后对其就产生了很大的兴趣。虽然有在莫烦Python上学习,也自己做过很简单的项目,但是之前对RL的学习比较混乱并不系统。正好看到这篇文章,感觉对自己有很大的帮助,就根据作者列出的知识点进行扩展学习。

1. 区分强化学习、监督学习和无监督学习

  • 首先讲下监督学习与无监督学习,这两种方法是机器学习中常用到的手段。监督学习是通过训练样本来训练得到一个最优的模型,其主要应用就分类问题。利用这个模型可以将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,进而具有了对未知数据进行分类的能力。
  • 而无监督学习与监督学习的主要不同就在于无监督学习不需要训练样本,其典型的例子就是聚类问题(如K-means算法),主要目的就是将相似的东西聚为一类就ok。
  • 强化学习则是让计算机自己去学会知识,或是会学解决问题的方法与规律,当然也不需要样本来训练。而让计算机找到解决问题方法就需要让它不断地去探索与试错,而我们只需要设计一个评分机制,对计算执行的动作进行一个评判来判断其是好是坏。这样让计算通过不断地试错,同时借助评分机制在这两方面的帮助下进而能找到解决问题的最优方法。

2. 区分Model-Free和Model-Based

强化学习分类图
Model-free就是不去学习和理解环境,环境给出什么信息就是什么信息,常见的方法有policy optimization和Q-learning。

Model-Based是去学习和理解环境,学会用一个模型来模拟环境,通过模拟的环境来得到反馈。Model-Based比Model-Free多了模拟环境,通过模拟环境预判接下来会发生的所有情况,然后选择最佳的情况。

3.区分Policy-Based和Value-Based

Policy-Based的方法直接输出下一步动作的概率,根据概率来选取动作。但不一定概率最高就会选择该动作,还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有policy gradients。

Value-Based的方法输出的是动作的价值,选择价值最高的动作。适用于非连续的动作。常见的方法有Q-learning和Sarsa。

4.区分On-Policy和Off-Policy

在线学习(on-policy)指的是学习的过程agent必须参与其中,典型的算法为Sarsa。

离线学习(off-policy)指的是既可以自己参与其中,也可以根据他人学习过程进行学习。典型的方法是Q-learning,已经Deep-Q-Network。

5. 区分强化学习中Agent的实际奖励 r r r R e t u r n ( s , a ) Return(s,a) Return(s,a)

  • 对于Agent实际的奖励,是其在环境中状态s下执行动作a后由环境(或说是我们自己设置的评分机制)反馈给Agent的单步奖励值。
  • 而对于 R e t u r n ( s , a ) Return(s,a) Return(s,a)是在状态s下,对往后n步的奖励值组合。强化学习的目的就是最大化 R e t u r n ( s , a ) Return(s,a) Return(s,a),Agent执行的每一步都是最优的决策。

6.强化学习中的策略(Policy)

π ( s ) →

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值