- 博客(2)
- 收藏
- 关注
原创 DQN代码运行流程(欢迎大家批评指正)
step1:设定300个回合,每个回合的步数没有设定(每个回合的结束是根据最新状态来决定的。,由代码可以看出,在这一步及之前,都没有s,s_,a,r等数据的输入,这一步仅是框架的搭建。step4:智能体执行动作后,环境发生了变化,可以得到,此刻的环境是s_,获得的奖励是r(,其中这个Q值是由神经网络生成的,即输入状态信息s,神经网络输出Q值(,当经验池中的数据少于200条时,智能体将不会进行学习。),且这个Q值还只是估计出来的,并不是训练出来的(代码,确实不大理解,还在学习中,有会的请教教我)
2024-01-14 11:37:40
1152
2
原创 有关DRL的疑问与回答(欢迎大家批评指正)
这意味着Q值是在神经网络的训练过程中动态地被估计和更新的,并不是事先生成一定量的Q值,然后再进行训练。相反,初始时,Q网络的权重是随机初始化的,而不是根据先验知识或经验生成的,它们用于估计状态动作对的Q值。在DQN中,Q网络通常是一个深度神经网络,其输入是环境的状态,输出是每个可能动作的Q值。经验回放的基本思想是将智能体在环境中的交互经验存储在一个缓冲区中,然后在训练过程中从这个缓冲区中随机抽样数据进行训练。经验回放可以减少训练时的数据分布的变化,从而提高算法的稳定性,减少训练过程中的波动。
2024-01-06 11:39:35
365
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人