强化学习_通信仿真爱好者的博客-CSDN博客

强化学习

关注

文章平均质量分 92

关注数：文章数：5 文章阅读量：11153 文章收藏量：72

作者: 通信仿真爱好者

phd在读，爱好通信领域相关仿真，包括调制解调，OFDM,MMIMO，信道编码（ldpc，polar，卷积）等，也擅长可见光（VLC），多址接入（NOMA，RSMA），无人机（UAV）,智能反射面（RIS）等通信优化问题相关的资源分配算法，如sca，拉格朗日等，也擅长使用强化学习解决通信相关问题。所展示的仿真图均有完整代码一键运行出图

展开

强化学习----雅达利游戏(atari)模块的安装

看了网上的部分教程，分别采用过这两个命令安装过，pip install gym[atari]pip install atari_py然而在ide中使用时仍会报错。后来发现，先执行：pip uninstall atari_py再执行：pip install --no-index -f https://github.com/Kojoley/atari-py/releases ata...

原创 2020-01-06 16:15:31 · 3060 阅读 · 3 评论
policy gradient 的理解

参考：策略梯度理解及TensorFlow实现李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)李宏毅，深度强化学习DQN的缺点：在DQN中，我们通过神经网络计算价值函数Q（s,a,w)近似表示Q(s,a)，即：Q(s,a,w)≈Q(s,a)Q(s,a,w) \approx Q(s,a)Q(s,a,w)≈Q(s,a)这个函数用参数w来描述...

原创 2019-11-28 18:49:33 · 730 阅读 · 0 评论
DQN小车爬山——pytorch实现

gym常用环境：gym常用的研究问题打开CartPole-v1，查看其源代码如图所示：可以在描述行中看到，该环境有4个观测值，分别是车的位置，车速，杆的角度，杆的偏转速度。2个动作分别为车向左和右走。...

原创 2019-11-28 11:30:47 · 3906 阅读 · 0 评论
DQN学习笔记

参考：1.莫烦什么是DQN 2强化学习：DQN与Double DQN讨论DQN(深度神经网络)是Q learning 与神经网络结合的产物。1.传统的Q learning先回顾一下传统的Q learning 算法。 Q learning 是异策略时间差分算法：Q learning最重要的两个概念是异策略和时间差分。异策略是指动作策略（选择动作的策略）和评估更新的策略不是同...

原创 2019-11-21 15:07:36 · 1656 阅读 · 2 评论
简单例子入门q learning附代码

参考于：Step-By-Step Tutorial极简Qlearning教程假设有这样的大房间，有门表示相互连通，将房间表示为点，连通关系表示为线，则上图可以建模为：假设有个机器人处在任意某一个房间，它的最终目标是走到房间5。为了表示能走到房间5，我们在能直接到达房间5的边权重设为100，其他不能到达的边设为0，不存在的边设为-1（比如0和2之间不在直达路径）。则该问题就抽象为：在...

原创 2019-11-19 13:20:55 · 1802 阅读 · 1 评论

强化学习

作者: 通信仿真爱好者

强化学习----雅达利游戏(atari)模块的安装

policy gradient 的理解

DQN小车爬山——pytorch实现

DQN学习笔记

简单例子入门q learning附代码