深度强化学习
文章平均质量分 94
B417科研笔记
日月光华,旦复旦兮。
主要研究方向:
5G毫米波混合波束成形
人工智能与无线通信结合
智能反射面系统设计。
展开
-
【深度强化学习】策略梯度 Policy Gradients
重读《Deep Reinforcemnet Learning Hands-on》, 常读常新, 极其深入浅出的一本深度强化学习教程。 本文的唯一贡献是对其进行了翻译和提炼, 加一点自己的理解组织成一篇中文笔记。原英文书下载地址: 传送门原代码地址: 传送门本文是书本第九章,介绍DQN的一种替代:策略梯度方法。在DQN方法中,我们主要是通过深度网络,得到不同状态下不同动作所对应的Q值,然后选取Q值最大的动作。 这一策略我们可以表示如下:π(s)=argmaxaQ(s,a)\pi(s)=\arg m a原创 2022-06-29 15:14:22 · 1543 阅读 · 2 评论 -
【得之我幸,失之我命】分享下研究生阶段, IEEE论文投稿的心态和心路历程
前言这篇博客不涉及技术,一方面记录下自己这些年研究生和博士阶段的科研心路历程, 也希望可以给同样在科研道路上砥砺前行的同学们一些论文投稿的心态建议和经验分享吧。初始点我是在大三下学期进入的实验室,当时什么都不懂,只是为了保研而听取辅导员的意见选了一位导师。 时至今日仍非常庆幸。 恰好当时实验室的大师兄正在做一篇毫米波通信相关的工作,导师觉得这个题材后续的前景广阔,而大师兄行将毕业, 于是就从那时起让我跟着大师兄,接过这个方向的大旗。 当时对通信的各种topic没有太多的了解,保研的首要目的也是为了文凭原创 2020-07-26 14:21:50 · 8205 阅读 · 16 评论 -
【深度强化学习】DQN:深度Q网络
文章目录前言第六章 DQN前言重读《Deep Reinforcemnet Learning Hands-on》, 常读常新, 极其深入浅出的一本深度强化学习教程。 本文的唯一贡献是对其进行了翻译和提炼, 加一点自己的理解组织成一篇中文笔记。原英文书下载地址: 传送门原代码地址: 传送门第六章 DQNDQN,其实是我看这本书的初衷, 大名鼎鼎的改变了强化学习领域的方法 。前一章中,我们熟悉了贝尔曼方程, 并介绍了值迭代方法。...原创 2020-07-19 19:09:47 · 2260 阅读 · 0 评论 -
【深度强化学习】Q-learning 和 贝尔曼方程
文章目录前言第五章 Q-learning 和 贝尔曼方程贝尔曼方程Value of Action 动作的价值一个简单的例子值迭代算法V值迭代算法Q值迭代算法实例: FrozenLake中的值迭代算法collection.defaultdict总结前言重读《Deep Reinforcemnet Learning Hands-on》, 常读常新, 极其深入浅出的一本深度强化学习教程。 本文的唯一贡献是对其进行了翻译和提炼, 加一点自己的理解组织成一篇中文笔记。原英文书下载地址: 传送门原代码地址: 传送原创 2020-07-11 20:08:44 · 5767 阅读 · 1 评论 -
【深度强化学习】交叉熵方法
文章目录前言第四章 交叉熵方法强化学习方法的分类实用的交叉熵交叉熵法实践:玩CartPole小游戏前言重读《Deep Reinforcemnet Learning Hands-on》, 常读常新, 极其深入浅出的一本深度强化学习教程。 本文的唯一贡献是对其进行了翻译和提炼, 加一点自己的理解组织成一篇中文笔记。原英文书下载地址: 传送门原代码地址: 传送门第四章 交叉熵方法在本章中, 我们将完成本书的第一部分, 并介绍一种强化学习方法——交叉熵。 尽管没有一些其他许多强化学习方法知名:例如 de原创 2020-06-24 15:32:55 · 5918 阅读 · 1 评论 -
【深度强化学习】第一个神经网络Demo :GAN生成Atari游戏图片
文章目录前言第三章 实例: 关于Atari游戏的生成对抗网络实现前言重读《Deep Reinforcemnet Learning Hands-on》, 常读常新, 极其深入浅出的一本深度强化学习教程。 本文的唯一贡献是对其进行了翻译和提炼, 加一点自己的理解组织成一篇中文笔记。原英文书下载地址: 传送门原代码地址: 传送门第三章 实例: 关于Atari游戏的生成对抗网络实现在开始本篇的介绍前, 先说明原代码在windows中遇到的一个极易出错的小问题:我在envs = [InputWrappe原创 2020-06-23 20:33:13 · 1558 阅读 · 3 评论 -
【深度强化学习】深度学习:Pytorch的使用
文章目录前言第三章 深度学习:Pytorch的使用Pytorch库基础Tensor 张量标量张量张量的操作张量 与 梯度Pytorch 的神经网络包:torch.nn自定义网络层损失函数与优化器损失函数优化器通过Tensorboard监控网络训练前言重读《Deep Reinforcemnet Learning Hands-on》, 常读常新, 极其深入浅出的一本深度强化学习教程。 本文的唯一贡献是对其进行了翻译和提炼, 加一点自己的理解组织成一篇中文笔记。原英文书下载地址: 传送门原代码地址: 传送原创 2020-06-22 23:17:24 · 4613 阅读 · 1 评论 -
【深度强化学习】OpenAI Gym的使用
文章目录前言第二章 OpenAI Gym深入解析Agent介绍框架前的准备OpenAI Gym APISpace 类Env 类step()方法创建环境第一个Gym 环境实践: CartPole实现一个随机的AgentGym 的 额外功能——装饰器和监视器装饰器 Wrappers监视器 Monitor总结前言重读《Deep Reinforcemnet Learning Hands-on》, 常读常新, 极其深入浅出的一本深度强化学习教程。 本文的唯一贡献是对其进行了翻译和提炼, 加一点自己的理解组织成一篇原创 2020-06-22 15:13:31 · 7991 阅读 · 0 评论 -
【深度强化学习】强化学习的基本概念
文章目录前言第一章:强化学习的基本概念学习——监督, 无监督与强化学习强化学习的体系与联系Reward 奖励AgentEnvironmentActionsObservation马尔科夫决策过程马尔科夫链马尔科夫奖励过程马尔科夫决策过程Policy总结前言重读《Deep Reinforcemnet Learning Hands-on》, 常读常新, 极其深入浅出的一本深度强化学习教程。 本文的唯一贡献是对其进行了翻译和提炼, 加一点自己的理解组织成一篇中文笔记。原英文书下载地址: 传送门原代码地址:原创 2020-06-21 18:31:01 · 4055 阅读 · 1 评论