深度学习-强化学习专业术语解释

perfect_god

已于 2022-07-30 21:14:02 修改

阅读量1.4k

点赞数

分类专栏：深度学习和机器学习文章标签：深度学习

于 2022-07-29 21:52:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/perfect_god/article/details/126053863

版权

深度学习和机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

确定的数值用小写字母表示，还不知道的就是大写字母

state：当前的状态

state transition：状态转移，做出动作后state（状态）变了的过程。

有状态转移函数：p（s’|s，a）=p（S'=s’|S=s，A=a）表示原本状态为s，做出a的动作，得到为s'的新状态的概率。

action：动作

agent：做动作的个体

reward：奖励，做完一个动作就会有一个奖励，会影响强化学习的好坏。eg：打超级马里奥，吃金币有金币+1，赢游戏有金币+10000，死了金币-100那这样的奖励就可以更加激励ai去赢游戏，而不是吃路途中的金币。

environment：环境，也就是程序

policy：根据state决定agent做什么动作

policy function：policy对应的函数。eg：π（a|s）为在s状态时做a动作的概率。

强化学习就是学policy function，让电脑自动操作任务打赢游戏。

状态转移可以是随机也可以是确定，随机性取决于环境。

eg：

up往上跳之后，状态还取决于w.p，取决于下面的小蘑菇运动方向，而他的运动方向是有概率的，所以新s是随机的。

（state，action，reward）trajectory：循环s，a，r。（state，action，reward）

return：（aka cumulative future reward）未来的每次奖励

Ut=Rt + Rt+1 + Rt+2 + Rt+3....。表示将t时刻开始的每次奖励都加起来

由于未来具有不确定性，因此给未来的reward带上权重。

所以有discounted return 折扣回报。

discounted return：

Ut=Rt + yRt+1 + y平方Rt+2 + y三次方Rt+3....。由未来的奖励的重要程度决定y的取值，1

为和该时刻同样重要。

Value function（价值函数）Qπ：

因为未来的动作发生有概率，你也不知道会做哪一个动作，所以用Qπ来表示，做期望。

Qπ（st，at）=E[Ut|St=st，At=at]。表示根据未来每个动作发生的概率做期望

对policy function和state function做积分，积掉At+1，At+2...，就可以得到基于当前st，at并对未来发生各动作的平均情况的期望，得到未来的平均价值，这就是价值函数。就可以知道当前状态下做哪个动作好与不好。这跟policy function有关。

Optimal action-value function：最优价值函数

当前st，at的max的Qπ。

state-value function（状态价值函数）：

表示Qπ的期望。可以把A作为随机变量，对A求期望，把A消掉。也就是基于目前状态做任何动作的期望，可以衡量目前的胜率，情况。π只和s有关。

对Qπ求期望也就是累加或积分每个权重乘Qπ，在这里权重就是概率，也就是π函数（决策函数）。

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
深度学习-强化学习专业术语解释

强化学习专业术语
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。