自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 强化学习之A3C

A3C:Asynchronous Advatage Actor-Critic

2019-02-24 23:11:45 487

原创 强化学习之DQN

DQN 包含了两个神经网络------------------ build evaluate_net ------------------ self.s = tf.placeholder(tf.float32, [None, self.n_features], name='s') # input self.q_target = tf.placeholder(tf.float32...

2019-02-23 18:31:42 244

原创 强化学习之DDPG:Deep Deterministic Policy Gradient

一句话概括 DDPG: Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测. DDPG 结合了之前获得成功的 DQN 结构, 提高了 Actor Critic 的稳定性和收敛性.因为 DDPG 和 DQN 还有 Actor Critic 很相关, 所以最好这两...

2019-02-23 18:11:47 583 1

原创 强化学习之Actor-Critic

Actor-CriticActor:l1 = tf.layers.dense(#输入一个state inputs=self.s, units=20, # number of hidden units activation=tf.nn.relu, kernel_i...

2019-02-23 09:51:44 498

原创 tensorflow中的交叉熵损失函数

loss1为原生态loss2为tensorflow封装import numpy as npimport tensorflow as tflabels = tf.one_hot(np.array([0,1,2,3],np.float32),4)b = np.array([[0.1,1.1,2.8,0.75]] * 4,np.float32)s = tf.nn.softmax(b)c =...

2019-02-20 15:29:57 570

原创 tensorflow中axis的理解

import numpy as npimport tensorflow as tfa = tf.constant(np.array([[1,2,3,4],[1,2,3,4],[1,2,3,4]]),dtype=tf.float32)b = tf.reduce_sum(a,axis=0)c = tf.reduce_sum(a,axis=1)sess = tf.Session()print...

2019-02-20 15:12:38 150

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除