强化学习中:神经网络与梯度下降

一、
参考:https://blog.csdn.net/itchosen/article/details/77200322

这里的关系是,主要用强化学习方法控制cartpole,同时由于是连续状态动作,所以用到了神经网络来拟合策略函数,策略梯度在这里的作用,是对神经网络的参数进行更新,是更新参数的一种方法。
1,此处用到三层神经网络:输入层,隐藏层,输出层
因为此处需要输出的动作只有三个,所以相当于用神经网络对动作进行分类,分类一般用softmax函数(离散动作选择此函数)(激活函数:因为不加激活函数时,神经网络是线性的,处理问题能力有限),它将动作映射成(0-1)范围的一个概率,相当于输出三个概率。
2,对应与softmax激活函数,损失函数一般用对数似然函数。
在这里插入图片描述
(这里有点问题,在别处看到,这个y其实应该是最终的结果,即如果最终符合我们的要求,则y=1,即求最大化我们的损失函数,反之为-1,即最小化损失函数,但两种思路结果一样,都是最优化损失函数 )

可见(个人理解)梯度下降也只是针对我们更想要的一个类别进行参数优化。

这里神经网络的输入是状态,输出是概率(即采取某个动作的概率),然后才去动作,得到奖励。训练的过程就是让奖励大的动作,发生的概率更大,奖励小的动作发生的概率更小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值