MDRL
文章平均质量分 64
所有前面标注相应分类以示区别
lewin.li
这个作者很懒,什么都没留下…
展开
-
框架|pytorch网络的输入相关
这里写目录标题一. 数据输入的类型1.张量的数据类型2. 张量的维度和尺寸3.张量、numpy数组、list的相互转化二. 数据输入的批次控制一. 数据输入的类型pytorch的基本数据结构是张量Tensor1.张量的数据类型张量的数据类型和numpy.array基本一一对应,但是不支持str类型。包括:torch.float16torch.float32(torch.float)torch.float64(torch.double)torch.int8torch.uint8torch原创 2021-03-12 16:23:21 · 1468 阅读 · 0 评论 -
强化学习|从Policy Gradient到Proximal Policy Optimization
DRL1. 算法的演进(PG to PPO)2. PG3. off-policy PG4. PPO5. 算法实现1. 算法的演进(PG to PPO)2. PG3. off-policy PG4. PPO5. 算法实现PG:PPO:原创 2021-03-04 19:42:30 · 230 阅读 · 1 评论 -
强化学习|状态价值函数解析解de向量形式的推导过程
求解贝尔曼方程有两种方法:一种是解析解的形式,一种是迭代解的形式。原创 2021-01-30 23:15:51 · 570 阅读 · 0 评论