神经网络策略函数

文章介绍了策略函数π(a|s)作为一个概率密度函数,它基于状态s决定可能的动作。通过神经网络,特别是用卷积层处理状态输入,全连接层映射到动作空间,然后通过softmax激活得到概率分布。这种方法用于近似原策略函数,其中θ表示模型参数。
摘要由CSDN通过智能技术生成

policy Function π ( a ∣ s ) \pi(a|s) π(as)

首先,策略函数 π ( a ∣ s ) \pi(a|s) π(as)是一个概率密度函数(PDF)
它使用状态s作为输入,所采取的各种动作可能性作为输出
eg:
π ( ← ∣ s ) = 0.2 \pi(\leftarrow | s) = 0.2 π(s)=0.2
π ( → ∣ s ) = 0.1 \pi(\rightarrow | s) = 0.1 π(s)=0.1
π ( ↑ ∣ s ) = 0.7 \pi(\uparrow | s) = 0.7 π(s)=0.7
智能体根据概率值随机抽样一个动作执行。

问题来了: 如何得到一个这样的策略呢?

policy Network: 使用神经网络近似 π ( a ∣ s ) \pi(a|s) π(as)
使用 π ( a ∣ s , θ ) \pi(a|s,\theta) π(as,θ) 来近似 π ( a ∣ s ) \pi(a|s) π(as)
θ \theta θ表示可训练的模型参数

将一个状态作为输入, 经卷积层得到特征向量。
再经过全连接层映射到一个三维向量(输出是上中下三个动作)
经过softmax激活函数得到概率分布函数.

卷积网络
全连接网络
softmax 激活函数
状态输入
特征向量
动作向量
动作概率密度函数

可以这样做:
首先截取
π ( a ∣ s , θ ) \pi(a|s,\theta) π(as,θ)

那么,如何使用神经网络来近似策略函数?

state value function

policy network π ( a ∣ s , θ ) \pi(a|s,\theta) π(as,θ)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值