![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 94
真·skysys
萌即正义 ^ω^ ヾ(o◕∀◕)ノヾ ヽ(≧□≦)ノ ヾ(・ω・`。)
展开
-
文献阅读笔记 # Space/Aerial-Assisted Computing Offloading for IoT Applications: A Learning-Based Approach
这次分享的是一篇 2019 年发表在《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》的文章 SCI 1区,通信 Top 期刊,IF=9.144Space/Aerial-Assisted Computing Offloading for IoT Applications: A Learning-Based Approach物联网应用的空间计算卸载:基于学习的方法Abstract物联网的计算卸载是一个挑战性问题(尤其是在边缘或云基础设施不可用的偏远地区原创 2022-03-17 02:06:01 · 7755 阅读 · 0 评论 -
基于多智能体深度强化学习的空地协同通信系统轨迹设计与访问控制
所属子方向:UAV assisted communication名词注释coordinated:协调、协同base stations 基站,公用移动通信基站,是移动设备接入互联网的接口设备,是指在一定的无线电覆盖区中,通过移动通信交换中心,与移动电话终端之间进行信息传递的无线电收发信电台。UAV-BS:无人机基站cooperative-competitive game:合作竞争博弈throughput :吞吐量,每秒比特数 bps,bits per secondDeterminis原创 2021-11-21 20:18:19 · 3487 阅读 · 2 评论 -
多智能体深度强化学习 # MADDPG
前置基础:DDPG多智能体深度强化学习 # 多智能体深度强化学习基础Multi-Agent:多智能体Deep:与DQN类似,使用目标网络+经验回放Deterministic:直接输出确定性的动作Policy Gradient: 基于策略Policy来做梯度下降从而优化模型MADDPG其实是在DDPG的基础上做的修改,而DDPG可以看作在DPG的基础之上修改而来,DPG是确定性输出的Policy Gradient;也可以把DDPG理解为让DQN可以扩展到连续控制动作空间的算法。DDPG不适原创 2021-12-14 07:01:42 · 6512 阅读 · 0 评论 -
多智能体深度强化学习 # 多智能体深度强化学习基础
前置基础:DDPG从这里开始就进入多智能体的领域了,另外到这里来说网上的教程一般也就木有了。感知智能->决策智能->群体决策智能Referenceopenai/maddpg的github在复现MADDPG的过程中遇到什么问题,是怎样解决的?张海峰 讲座-从博弈论到多智能体强化学习附介绍:...原创 2021-12-14 01:29:14 · 2503 阅读 · 0 评论 -
强化学习 # Actor-Critic
Actor-Critic算法 (演员评判家),合并了以值为基础 (比如 Q learning) 和以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法。Actor-Critic 的 Actor 的前生是 Policy Gradients, 这能让它毫不费力地在连续动作中选取合适的动作, 而 Q-learning 做这件事会瘫痪。为什么不直接用 Policy Gradients 呢? 原来 Actor Critic 中的 Critic 的前生是 Q-learning 或者其他的 以值原创 2021-12-12 03:11:59 · 1707 阅读 · 0 评论 -
深度强化学习 # DDPG
Deep Deterministic Policy Gradient (DDPG)前置基础:policy gradientDDPG是一种Actor-Critic结构。基于PARL实现DDPGReferencehttps://www.bilibili.com/video/BV1yv411i7xd?p=18https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/intro-DDPG/...原创 2021-12-12 01:14:08 · 1834 阅读 · 0 评论 -
强化学习 # Policy gradient
Policy Gradients:不通过分析奖励值, 直接输出行为的方法。对比起以值为基础的方法, Policy Gradients 直接输出动作的最大好处就是, 它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning只能适用于action数量有限的情况。Policy Gradients可以结合神经网络。强化学习里面无标签,所以Policy Gradients没有误差,那要怎么进行神经网络的误差反向传递呢?(因此还是需要充分利用reward的信息)Policy Gradients的核心思原创 2021-12-10 22:10:55 · 1096 阅读 · 0 评论 -
强化学习 # 概述
博主在学习强化学习和深度强化学习中对RL/DRL的归纳总结。1 Introduction强化学习的关键是:exploitation(利用) 和 exploration (探索),也可以解读为trial和reward。和监督学习算法的区别是:监督学习:已知数据、标签强化学习:一开始没有标签,通过try获得data和labelRL的一些基本算法:通过行为的价值来选取特定行为的方法, 包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network,.原创 2021-12-10 00:38:45 · 1247 阅读 · 0 评论 -
深度强化学习 # Deep-Q-Network
前置教程: Q-learning;DQN基础传统表格学习的强化学习算法有瓶颈(比如下围棋,状态空间太大,无法存下,相当于把存储空间压缩在网络里了),融合神经网络+Q-Learning的算法。表格存储空间不够,搜索复杂度过高,用NN来得到Q value用NN的两种情形:(1)输出状态值,NN输出Q值(2)输出状态值,NN输出all Q值,然后取max(Q);后面使用第(2)种NN来进行分析。如何Train NN?需要 a1, a2 正确的Q值, 这个 Q 值我们就用之前在 Q learni原创 2021-11-25 19:17:14 · 1333 阅读 · 0 评论 -
强化学习 # Q-Learning算法
详细教程参考REF.1,本文是根据reference的个人笔记1 Introduction和监督学习算法的区别是:监督学习:已知数据、标签强化学习:一开始没有标签,通过try获得data和labelRL的一些基本算法:通过行为的价值来选取特定行为的方法, 包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network, 还有直接输出行为的 policy gradients, 又或者了解所处的环境, 想象出一个虚拟的环境并从虚拟的环境中学习 …Mo原创 2021-10-06 00:00:59 · 1501 阅读 · 2 评论