dqn算法总结

1、dqn算法基于q-learning计算q值。

2、使用小批量暂存训练数据(训练数据基于q-learing计算得出,并且在q的计算中,使用神经网络模拟q函数,一开始效果肯定很差)。

3、在收集到足够的小批量训练数据后,使用训练数据,训练q函数的神经网络参数。

4、依次不断迭代,越到后面,神经网络越拟合现实的q函数。

5、总的来说,就是使用神经网络模拟q函数,并不断训练q函数。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值