tensorflow
文章平均质量分 89
en大师兄
这个作者很懒,什么都没留下…
展开
-
强化学习公式推导(Actor-Critic)
PG算法是对整个马尔科夫链(也就是每个trajectory)进行期望计算,最终推导的得到的公式如下: ▽θRθ‾=Eτ∼πθ(τ){∑t=1T▽θlog[πθ(at∣st)]}∗{∑t=1Tr(st,at)}(1) \tag{1} \triangledown_{\theta} \overline{R_\theta}= E_{\tau \sim \pi_{\theta}(\tau)}\{\sum_{t=1}^T \triangledown_{\theta}log[\pi_{\theta}(a_t|s_t)]\原创 2020-10-21 12:01:36 · 1243 阅读 · 0 评论 -
tensorflow张量运算
张量(tensor)可以说是TensorFlow的标志, 因为整个框架的名称TensorFlow就是张量流的意思。 TensorFlow程序使用tensor数据结构来代表所有的数据。 计算图中, 操作间传递的数据都是Tensor。 可以把tensor看为一个n维的数组或列表, 每个tensor中包含了类型(type) 、 阶(rank) 和形状(shape) 。 rank(阶) 指的就是维度。 张量的阶和矩阵的阶并不是同一个概念, 主要是看有几层中括号。 例如, 对于一个传统意义上的3阶矩阵a=[[转载 2020-07-22 10:05:54 · 1272 阅读 · 0 评论