DoubleDQN

最新推荐文章于 2024-04-14 11:01:28 发布

HCH996

最新推荐文章于 2024-04-14 11:01:28 发布

阅读量127

点赞数

分类专栏：科研

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37841366/article/details/112574257

版权

科研专栏收录该内容

9 篇文章 0 订阅

订阅专栏

实现时，重写target的计算方法，注意张量的切片使用的是gather函数，而不是迭代

        # q_target = reward + gamma * max(q_next)
        with tf.variable_scope('dd_q_target'):
            a_ = tf.argmax(self.e_next, 1)
            # 注意切片函数
            q_ = tf.gather(self.q_next, a_ ,  axis=1)#其实默认axis=1
            q_target = self.r + self.gamma * q_
            self.q_target = tf.stop_gradient(q_target)

打印所有的Q值并且进行比较。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DoubleDQN

实现时，重写target的计算方法，注意张量的切片使用的是gather函数，而不是迭代 # q_target = reward + gamma * max(q_next) with tf.variable_scope('dd_q_target'): a_ = tf.argmax(self.e_next, 1) # 注意切片函数 q_ = tf.gather(self.q_next, a_ , ax
复制链接

扫一扫

专栏目录

HCH996 CSDN认证博客专家 CSDN认证企业博客

码龄7年

436: 原创

17万+: 周排名

182万+: 总排名

22万+: 访问

: 等级

4828: 积分

205: 粉丝

135: 获赞

92: 评论

500: 收藏

私信

关注

分类专栏

项目 61篇
Android开发 3篇
计算机网络 11篇
Java 60篇
算法 99篇
Netty 1篇
科研 9篇
Linux 26篇
面经 3篇
数据库 22篇
SSM 8篇
spring 7篇
SpringBoot 49篇
redis 28篇
分布式事务 3篇
并发编程篇 11篇
设计模式 21篇
分布式 3篇
JVM 3篇
JVM虚拟机 2篇
软件测试 9篇
国家电网
ElasticSearch 3篇
Quartz 1篇
Kafka
高并发分布式 2篇
人工智能 4篇
算法高频面试题精讲 4篇
leetcode刷题 11篇

最新评论

什么是指令重排序？为什么要重排序？
生来如风: 关于最后一段话，没有特别理解，想请教一下这一句【线程 2 却可能看到线程 1 修改 a 之后的代码执行效果】
HTTP协议的工作原理-HTTP1.0-HTTP1.1-HTTP2.0之间的区别-HTTP响应状态码
2301_79305604: 为什么不攻击小三的臀部
软件的安装：编译安装和包管理器安装有什么优势和劣势
Issac-Clarke: 这几天也一直纠结yum源安装和编译安装的选择问题，写的很详细，
PPO算法
m0_73822959: 您好，对于连续动作actor网络一定输出高斯分布吗，还有您的问题怎么解决的呢
什么是指令重排序？为什么要重排序？
茶汰: class文件也不会把load a、load b这些指令显示出来，所以是看不出来的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。