![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 94
DongXun_Lord
欲买桂花同载酒
展开
-
The Conclusion of UAV-AoI-RL and Other Methods
我想了一下,为什么这么分解,首先要明确策略是动作到状态的映射,这个映射才是一个完整的策略,完整的策略包括一个完整的动作,分解为三个动作的策略,那么子策略的映射包括的就是单个子动作,策略的寻找就转换为了找到一个完整的包含所有动作的策略到找到三个子动作的策略,这样让整个策略更加清晰了。针对这一点,我想说,不是特别的合理,在现实世界中,不会给你这么理想的设备安排方式,如果后面还有这种文章,那么我在写论文的时候就可以说我模型中的优势,即不知道车辆的位置,这是一点要使用RL学习的理由,也即是常说的动态的无线环境。原创 2022-11-15 21:53:13 · 619 阅读 · 3 评论 -
两种深度强化学习算法在网络调度上的应用与优化(DQN A3C)
首先给出论文地址和代码, Reinforcement Learning Based Scheduling Algorithm for Optimizing Age of Information in Ultra Reliable Low Latency Networks从题目可以得知, 这是一篇有关强化学习的论文, 具体的工作是用A3C算法来优化10个sensor的AOI以及保证URLLC,所谓URLLC,即给每一个sensor都设定一个阈值,接着通过训练来保证每一个sensor的AOI不超过这个阈值,否原创 2022-03-01 22:20:50 · 4040 阅读 · 1 评论