2018年12月_秋曾万

12月 09月 07月 01月

原创 A Distribution Perspective on Reinforcement Learning(C51) 概率分布下的贝尔曼方程

原本的Bellman Equation 更新为 ////// 状态值函数Q(x,a)Q(x,a)Q(x,a)是一个单点值函数，表示x状态下执行a动作的累计回报（期望）去掉期望后，得到的就是一个关于随机变量的函数关系： ////// 这里的随机变量Z(x,a)Z(x,a)Z(x,a) 是在x状态下执行a动作之后的回报形成的随机变量。注意它是具有概率...

2018-12-26 09:50:07 3421

李宏毅GAN对抗生成网络2018最新ppt全套

李宏毅GAN对抗生成网络2018最新ppt全套,内容非常详细，结合视频一起学习，将大有裨益

2018-08-17

最优化方法ppt（中科院大学研究生课程）

国科大的最优化方法ppt，内容非常全，说明也很详细，无论是从事机器学习方向还是本事就是做优化的看，都会有收获

2018-08-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人