![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记
及达尖犁头鳐
这个作者很懒,什么都没留下…
展开
-
《白话强化学习与PyTorch》学习笔记---第九章
第九章---PG算法族9.1 DP9.2 Actor-Critic在第八章中的DQN算法族中,都是求一个状态或则一个状态下某个动作的估值为手段的“间接”求解策略,而本章中的策略梯度法(Policy Gradient)手段更为直接,直接让一个模型或则网络学到一个策略,从而可以解决DQN算法族中无法解决的连续控制问题。同样关于原理只是简单讲解,具体可以参考刘建平老师的系列博客。9.1 DP既然需...原创 2020-01-11 17:32:47 · 1126 阅读 · 6 评论 -
《白话强化学习与PyTorch》学习笔记---第八章
《白话强化学习与PyTorch》学习笔记-第八章第八章用了DQN及各种改进算法来训练Gym中的atari游戏—pong首先先来看一下官方网站中的游戏介绍:简单来说,训练目的是使得分最大化。在这个环境中的观察结果(observation)是RGB图像,大小为(210,160,3),在2~4(随机采样)帧内重复同一个动作。从环境中得到observation后,我们会先对数据进行预处理操作:d...原创 2019-11-11 12:06:21 · 3959 阅读 · 19 评论 -
《白话强化学习与PyTorch》学习笔记---第六章
《白话强化学习与PyTorch》学习笔记---第六章第六章-深度学习1. 代码修改的主要内容2. 三种神经网络的个人总结2.1 全连接神经网络2.2 卷积神经网络:2.3 循环神经网络第六章-深度学习第六章主要用了三种神经网络实现了对手写数字(0~9)数据集MNIST的分类问题(全连接神经网络(feedforward_neural_net.py)、卷积神经网络(convoluntional_n...原创 2019-09-25 11:14:29 · 3093 阅读 · 2 评论