斯坦福CS234增强学习——（1）简介

qq_43675321

已于 2023-09-13 20:08:31 修改

阅读量287

点赞数

分类专栏： CS234增强学习文章标签：学习

于 2023-04-08 18:14:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43675321/article/details/130014866

版权

CS234增强学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

增强学习概述

增强学习的基本要素

在这里插入图片描述
增强学习的关键所在，尤其是第2，3点是将增强学习与其他机器学习进行区分的重要因素。如下图所示，分别对其进行了阐述。这里我们定义了policy的含义：policy是指从过去的经验到决策行为的一种映射，较为严格的形式是，给定状态下的动作分布（当已知状态后，应该采取什么样的行动）。
在这里插入图片描述
censor:审查

增强学习与其他机器学习方法的区别

在这里插入图片描述

关于模仿学习

在这里插入图片描述

在不确定性下的时序决策(sequential decision making under uncertainty)

在这里插入图片描述

一些简单的例子

在这里插入图片描述

有关reward的一个小问题

在这里插入图片描述
我们忽略学生主动学习的可能性，且认为加法更加简单，则在这种前提下，若采用上述的reward策略，则agent会给学生愈发简单的加法题来获得更多的reward，但是这显然是不对的，所以一定要恰当的选择reward。

机器教学

机器教学的一个想法就是有两个intelligent agent且知道各自在对对方进行教学则会发生什么，下面给出一个经典的例子：
在这里插入图片描述
图中由n个数据点，进行二分类，如果自己想找到进行分类的线，通过策略性地要求人们标记出一些点，需要logn的复杂度；如果已知由另一个agent进行教学，则O（1）复杂度即可，因为教学者会标出来+与-的边缘，从而直接确定分类的线。

关于增强学习流程图中的一些定义

在这里插入图片描述

agent只接触了world的一部分，比如作为一个人，眼睛只能看一部分世界，永远看不到后脑勺。

马尔可夫假设

在这里插入图片描述
（个人理解）显然两个例子都不是Markov state，因为（1）不同吃药的序列动作会导致血压的不同变化情况（2）推荐的商品会影响人们浏览商品的意图。即涉及到了历史情况，而非仅仅是当前状态。

完全观察马尔可夫决策过程（MDP）

在这里插入图片描述

部分观察马尔可夫决策过程（POMDP）

在这里插入图片描述
如打扑克的过程，看不到其他人手中的牌，但是可以看到自己的牌和已经打出的牌，并据此做出决策。

时序决策过程的类型

Bandit

在这里插入图片描述

MDP和POMDP

在这里插入图片描述

World改变的特点

在这里插入图片描述
我们可以认为只要有足够好的模型就可以将过程建立为确定性的，但是由于很难做到，我们通常将模型近似建立为随机的。

增强学习算法的组成

模型

在这里插入图片描述
reward取期望是因为采取acttion可能到达不同的state，有一个关于state的分布，对这个分布取一个期望。

策略（policy）

在这里插入图片描述

价值（value）

在这里插入图片描述

关于RL agent

在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
斯坦福CS234增强学习——（1）简介

增强学习的关键所在，尤其是第2，3点是将增强学习与其他机器学习进行区分的重要因素。如下图所示，分别对其进行了阐述。这里我们定义了policy的含义：policy是指从过去的经验到决策行为的一种映射，较为严格的形式是，给定状态下的动作分布。agent只接触了world的一部分，比如作为一个人，眼睛只能看一部分世界，永远看不到后脑勺。
复制链接

扫一扫

专栏目录

qq_43675321 CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

64万+: 周排名

15万+: 总排名

4748: 访问

: 等级

192: 积分

51: 粉丝

71: 获赞

11: 评论

62: 收藏

私信

关注

热门文章

分类专栏

最新评论

[pytorch函数合集]torch_scatter.scatter_max()
间歇性早睡早起: 第一个例子结果错了，应该是tensor([[4, 7], [9, 8]])
斯坦福CS234——（8）梯度策略1
CSDN-Ada助手: 恭喜您写完了第12篇博客！看来您对斯坦福CS234的学习进展顺利呢。关于梯度策略的讨论也十分精彩，不过我想提个小建议，下一篇博客可以尝试结合实例或者案例进行分析，这样可以更生动地展示您的理解和应用能力。期待您的下一篇作品！加油！
斯坦福CS234——（6）Deep Q Learning
CSDN-Ada助手: 恭喜你撰写第10篇博客，标题为“斯坦福CS234——（6）Deep Q Learning”！你对深度强化学习的探索让人印象深刻。接下来，我建议你可以尝试探讨一些实际案例或者应用场景，以及对于算法的优化或改进方面的思考，这样可以更深入地理解和应用所学知识。期待你的下一篇作品！继续加油！👏👏👏
斯坦福CS234——（7）模仿学习
CSDN-Ada助手: 恭喜您写了第11篇博客！阅读您关于斯坦福CS234的学习心得，我感觉受益匪浅。模仿学习是一个很重要的主题，希望您能继续分享更多关于这方面的见解和经验。同时，我建议您在未来的博客中可以尝试加入一些案例分析或实践经验，让读者更加深入地了解模仿学习的应用和效果。期待您的更多精彩内容！
斯坦福CS234——（5）价值函数逼近
CSDN-Ada助手: 恭喜你写了第9篇博客！看来你对斯坦福CS234的学习进展顺利啊。对于这篇关于“价值函数逼近”的内容，你讲得很清晰，让我这个外行也能够理解一些相关概念。希望你能够继续坚持写作，分享你的学习心得。下一步，或许可以考虑增加一些实际案例或者个人实践经验，这样会更具吸引力和指导性。加油！期待你的下一篇作品。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。