policy Function π ( a ∣ s ) \pi(a|s) π(a∣s)
首先,策略函数
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)是一个概率密度函数(PDF)
它使用状态s
作为输入,所采取的各种动作可能性作为输出
eg:
π
(
←
∣
s
)
=
0.2
\pi(\leftarrow | s) = 0.2
π(←∣s)=0.2
π
(
→
∣
s
)
=
0.1
\pi(\rightarrow | s) = 0.1
π(→∣s)=0.1
π
(
↑
∣
s
)
=
0.7
\pi(\uparrow | s) = 0.7
π(↑∣s)=0.7
智能体根据概率值随机抽样一个动作执行。
问题来了: 如何得到一个这样的策略呢?
policy Network: 使用神经网络近似
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)
使用
π
(
a
∣
s
,
θ
)
\pi(a|s,\theta)
π(a∣s,θ) 来近似
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)
θ
\theta
θ表示可训练的模型参数
将一个状态作为输入, 经卷积层
得到特征向量。
再经过全连接层
映射到一个三维向量(输出是上中下三个动作)
经过softmax激活函数
得到概率分布函数.
可以这样做:
首先截取
π
(
a
∣
s
,
θ
)
\pi(a|s,\theta)
π(a∣s,θ)
那么,如何使用神经网络来近似策略函数?