2. 强化学习方法汇总

最新推荐文章于 2024-02-23 09:33:31 发布

无知书童

最新推荐文章于 2024-02-23 09:33:31 发布

阅读量330

点赞数 1

分类专栏： # 深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28404829/article/details/103099994

版权

深度强化学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

强化学习方法汇总

通过理解环境分类
通过基于概率和价值分类
根据更新回合分类
根据在线和离线分类

通过理解环境分类

Model-Based 方法，机器人通过过往的经验，理解真实世界的情况并建立一个模型来模拟现实世界。
在这里插入图片描述

Model-based 的方法具有想象力，可以通过想象来预判下一步的情况，根据想象中的情况选择最好的一种，根据这种情况来做下一步的策略。

通过基于概率和价值分类

基于价值的选择策略更加铁定，只会选择价值最高的。
基于概率的选择策略能够选择概念比较小的情况。
在这里插入图片描述
对于连续的动作，只能选择给予概率的方法。

根据更新回合分类

在这里插入图片描述

根据在线和离线分类

离线学习可以通过过往的经历进行学习，但这个经历可以是别人的经历。
可以白天存储玩耍的经历，晚上进行学习。
在这里插入图片描述

原视频：
https://www.bilibili.com/video/av16921335?p=2

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
2. 强化学习方法汇总

强化学习方法汇总通过理解环境分类通过基于概率和价值分类根据更新回合分类根据在线和离线分类通过理解环境分类Model-Based 方法，机器人通过过往的经验，理解真实世界的情况并建立一个模型来模拟现实世界。Model-based 的方法具有想象力，可以通过想象来预判下一步的情况，根据想象中的情况选择最好的一种，根据这种情况来做下一步的策略。通过基于概率和价值分类基于价值的选择策略更加...
复制链接

扫一扫

专栏目录

无知书童 CSDN认证博客专家 CSDN认证企业博客

码龄9年

129: 原创

24万+: 周排名

219万+: 总排名

13万+: 访问

: 等级

2278: 积分

53: 粉丝

65: 获赞

13: 评论

285: 收藏

私信

关注

热门文章

分类专栏

最新评论

4 傅里叶级数的复数形式
流星奶香包: 注意一下，“欧拉公式”中的sinθ公式有误，应该是 sinθ=-i/2[e^(iθ)-e^(-iθ)]。作者此处没有乘以i。
Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN
njz: 你确定这是acl 2018文章，希望能严谨点 https://acl2018.org/programme/papers/
1 三角函数的正交性
duangduangduang136: gch别学咯
Knowledge Base Question Answering via Encodin of Complex Query Graphs
x2213500360: 我对博主在文中提到的几点的看法：首先是查询图生成中，类型链接，意思应该是粗鲁地结合一个词、两个词或者三个词构成提及(mentions)，例如图2a中，US 和 president这两个词构成类型的提及，与这个类型提及相似度高的两个类型是us_president和us_vice_president。其次是类型约束，只接收答案节点IsA谓词的约束。在图2d中给出了例子，答案节点A的类型是us_president，用谓词约束IsA相连，其他的谓词约束不接收意思应该是只考虑谓词是IsA约束。最后的问题：为什么会得到多个 q 向量，问题不是只有一个，难道是局部压缩有多个？每一个q都是由全局信息和不同的局部信息构成的，它的局部信息与语义组件是相对应的。可以认为一个语义组件表示句子中的一部分局部语义信息，这一部分局部语义信息与q向量的局部信息是对应的。但是我也不太懂例子中第二和第三个语义组件对应的局部依赖序列应该是怎么样的，希望有大佬解答。以上都是个人理解，有理解错误的地方还请指出。
2 线性化泰勒级数泰勒公式
Miaaam: 能问问为什么x-x0还在吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。