强化学习
文章平均质量分 92
通信仿真爱好者
phd在读,爱好通信领域相关仿真,包括调制解调,OFDM,MMIMO,信道编码(ldpc,polar,卷积)等,也擅长可见光(VLC),多址接入(NOMA,RSMA),无人机(UAV),智能反射面(RIS)等通信优化问题相关的资源分配算法,如sca,拉格朗日等,也擅长使用强化学习解决通信相关问题。所展示的仿真图均有完整代码一键运行出图
展开
-
强化学习----雅达利游戏(atari)模块的安装
看了网上的部分教程,分别采用过这两个命令安装过,pip install gym[atari]pip install atari_py然而在ide中使用时仍会报错。后来发现,先执行:pip uninstall atari_py再执行:pip install --no-index -f https://github.com/Kojoley/atari-py/releases ata...原创 2020-01-06 16:15:31 · 3060 阅读 · 3 评论 -
policy gradient 的理解
参考:策略梯度理解及TensorFlow实现李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)李宏毅,深度强化学习DQN的缺点: 在DQN中,我们通过神经网络计算价值函数Q(s,a,w)近似表示Q(s,a),即:Q(s,a,w)≈Q(s,a)Q(s,a,w) \approx Q(s,a)Q(s,a,w)≈Q(s,a)这个函数用参数w来描述...原创 2019-11-28 18:49:33 · 730 阅读 · 0 评论 -
DQN小车爬山——pytorch实现
gym常用环境:gym常用的研究问题打开CartPole-v1,查看其源代码如图所示:可以在描述行中看到,该环境有4个观测值,分别是车的位置,车速,杆的角度,杆的偏转速度。2个动作分别为车向左和右走。...原创 2019-11-28 11:30:47 · 3906 阅读 · 0 评论 -
DQN学习笔记
参考:1.莫烦什么是DQN 2强化学习:DQN与Double DQN讨论DQN(深度神经网络)是Q learning 与神经网络结合的产物。1.传统的Q learning先回顾一下传统的Q learning 算法。 Q learning 是异策略时间差分算法:Q learning最重要的两个概念是异策略和时间差分。 异策略是指动作策略(选择动作的策略)和评估更新的策略不是同...原创 2019-11-21 15:07:36 · 1656 阅读 · 2 评论 -
简单例子入门q learning附代码
参考于:Step-By-Step Tutorial极简Qlearning教程假设有这样的大房间,有门表示相互连通,将房间表示为点,连通关系表示为线,则上图可以建模为:假设有个机器人处在任意某一个房间,它的最终目标是走到房间5。为了表示能走到房间5,我们在能直接到达房间5的边权重设为100,其他不能到达的边设为0,不存在的边设为-1(比如0和2之间不在直达路径)。则该问题就抽象为:在...原创 2019-11-19 13:20:55 · 1802 阅读 · 1 评论