深度强化学习入门1

最新推荐文章于 2024-07-19 16:36:18 发布

WFForstar

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量324

点赞数 5

文章标签： python 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/skyllerone/article/details/138585647

版权

Tips 最好装个jupyter notebook 便于可视化

一. 专有名词

1. state（s）表示物体的状态

2. agent 智能体

3. action 动作

在这里插入图片描述

在这张图片中,左边一整张图片是state，马里奥是agent，左右上三个动作是action

4. policy pai 策略

在这里插入图片描述

5. reward R 奖励

6. state transition 状态转移

注意状态转移是具有随机性的，也就是下一个状态是不确定的。

关系

在这里插入图片描述
上述基本概念都有一定的联系，如上图所示。

随机性

在深度强化学习中，随机性主要来自于两个方面：agent的action具有随机性，state transition也具有随机性。

return 回报

在这里插入图片描述
回报是指从t时刻开始直到结束所有奖励的累加，如定义1。
但事实上，每个时间点的奖励的权重并不相通，越未来的回报权重越低，因此定义了一个折扣率gama，通过定义2这个公式来实现求得更符合实际的回报。因此，折扣率gama设置的大小和深度强化学习的结果有一定的关系。在这里插入图片描述
而奖励同样具有随机性，是由state和action决定的，因此回报return也同样具有随机性，由state和action决定

Action-Value Function 动作价值函数

在这里插入图片描述
Qpai函数是指在pai策略下得到的动作价值函数，而Q函数是指最优动作价值函数，定义就是当policy=pai时，取得的Qpai最大，因此Q与pai已经无关，它的实际意义是当agent处于St 这个state的时候，动作at好不好。

Vpai是状态价值函数，用来评价状态是好是坏。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度强化学习入门1

在这张图片中,左边一整张图片是state，马里奥是agent，左右上三个动作是action。
复制链接

扫一扫

WFForstar CSDN认证博客专家 CSDN认证企业博客

码龄4年

87: 原创

31万+: 周排名

3万+: 总排名

10万+: 访问

: 等级

1064: 积分

77: 粉丝

145: 获赞

29: 评论

334: 收藏

私信

关注

热门文章

分类专栏

笔记 22篇

最新评论

TC118S电机驱动小坑
GYChase: 我用这款芯片驱动TT马达用PWM调速经常烧毁
cosarctanx的求法
2301_79650766: 我居然在csdn里面找到了我的数学答案
resnet(4)------全连接层与softmax
一只菜得不行的鸟: 终于明白了why
python爬虫实战(二)——优美图库(bs4)
ggeggggw: 我怎么拿第一个herf，里面为none
opencv学习笔记(三)——掩膜操作(C++)
MaLou King: 没太明白，开始的掩膜矩阵如果权设置不合适的，对比度是下降的不一定都是提高对比度，所有掩膜操作是不是还有降低对比度的效果

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

WFForstar 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。