强学学习总结（二）：简答题

最新推荐文章于 2023-03-22 16:59:08 发布

唠叨小主

最新推荐文章于 2023-03-22 16:59:08 发布

阅读量1.5k

点赞数 1

分类专栏：强化学习文章标签：强化学习机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LuoMin2523/article/details/118294726

版权

第一章 Reinforcement Learning

问题1：请简述什么是强化学习

强化学习包含环境, 动作和奖励三部分, 其本质是 agent 通过与环境的交互, 使得其作出的 action所得到的决策得到的总的奖励达到最大, 或者说是期望最大。

强化学习（Reinforcement Learning）：智能体在与复杂且不确定的环境进行交互时，使所获得的收益最大化的计算算法。

强化学习是智能体学习如何在环境中采取一系列行为，从而获得最大化的累积回报。强化学习是从环境状态到动作的映射的学习，我们把这个映射称为策略。

问题2：请说明强化学习的使用场景

答: 七个字的话就是多序列决策问题。或者说是对应的模型未知, 需要通过学习逐渐逼近真实模型的问题并且当前的动作会影响环境的状态, 即服从马尔可夫性的问题。同时应满足所有状态是可重复到达的 (满足可学习型的)。

问题3：请简述强化学习的特征

问题4：请举例生活中强化学习的例子

问题5：基于价值函数的迭代和基于策略函数的迭代的强化学习方法有什么区别？

policy-based（基于策略的）：Agent 会制定一套动作策略（确定在给定状态下需要采取何种动作），并根据这个策略进行操作。强化学习算法直接对策略进行优化，使制定的策略能够获得最大的奖励。

valued-based（基于价值的）：Agent 不需要制定显式的策略，它维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。

问题6：请简述什么是有模型学习？什么是无模型学习？

• model-based（有模型结构）：Agent 通过学习状态的转移来采取措施。

• model-free（无模型结构）：Agent 没有去直接估计状态的转移，也没有得到 Environment 的具体转移变量。它通过学习 value function 和 policy function 进行决策。

当智能体知道状态转移函数 P(st+1|st , at) 和奖励函数 R(st , at) 后，它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态，这样智能体就不需要在真实环境中采取动作，直接在虚拟世界中学习和规划策略即可。这种学习方法称为有模型学习。

免模型学习没有对真实环境进行建模，智能体只能在真实环境中通过一定的策略来执行动作，等待奖励和状态迁移，然后根据这些反馈信息来更新行为策略，这样反复迭代直到学习到最优策略。

第二章 MDP

请简述马尔可夫性质

如果一个状态转移是符合马尔可夫的，那就是说一个状态的下一个状态只取决于它当前状态，而跟它当前状态之前的状态都没有关系。也就是说未来的转移跟过去是独立的，它只取决于现在。

最低0.47元/天解锁文章

博客等级

码龄7年

42
原创

82
点赞

484
收藏

51
粉丝

关注

私信

热门文章

分类专栏

最新评论

使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性
柚子社天下第1: 这个是否有可以测试的链接,网页什么的
数分面试常考知识点
CSDN-Ada助手: 非常感谢CSDN博主分享的“数分面试常考知识点”博文，这篇博客提供了很有价值的知识点，对于准备数分面试的同学来说非常实用。我觉得未来一篇博客可以从实战出发，分享数分实战技巧和经验，如何快速解决数分难题等等，相信这样的技术文章对其他用户也会非常受益。期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
GNN学习笔记（四）：图注意力神经网络（GAT）节点分类任务实现
hangerover: 为啥数据集下载不了啊
使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性
工作是最幸福的: 这个评价数据集怎么找的，博主有吗，请问
强化学习笔记（七）：蒙特卡洛树搜索（MonteCarlo Tree Search）
天才中年达尔文: 模拟过程中由rollout策略函数选择的节点是不会被标记为已访问过的，只有从模拟开始的节点被标记为已访问过。如果使用论文中fast rollout策略，是总是选概率最大的action吗？岂不是模拟那么多次，可能总是玩成一样呀？这样肯定不行

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。