强化学习过程笔记 (一) ReinforcementLearning 详解价值函数,剖析公式

本系列博客参照学习笔记 easy-rl by DataWhale,标题中的后半部分对应笔记中每章节。 

附上链接:https://datawhalechina.github.io/easy-rl/x

本系列博客配合上笔记学习效果更佳,内容主要包含一些重要概念和笔者自己学习中对所遇到的难点疑点的思考。

强化学习的概念示意图:

对于一个强化学习agent,他可能由一个或多个的如下部分组成:

Policy function  agent会用这个函数来选取下一步
value function  对未来奖励的预测,评估状态的好坏。
model 模型代表了agent对这个环境的状态进行了理解,决定了这个世界是如何进行的

Policy

Policy是agent的行为模型,它决定了agent的行为,它其实是一个函数,把输入的状态变为行为。

有以下两种:

随机性策略(stochastic policy)         

确定性策略(deterministic policy)

Value Function——对价值函数的理解

 v_\pi(s) = \mathbb{E}_{\pi}[G_t|S_t = s] = \mathbb{E}_{\pi} [ \sum_{k=0}^\infty \gamma ^k R_{t+k+1} | S_t = s ] \text{, for all } s \in S

对此公式的说明:

其中

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值