20221106论文

小夏小夏要坚强

已于 2024-03-06 07:44:04 修改

阅读量158

点赞数

分类专栏： me 文章标签： python

于 2022-11-06 17:00:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40728070/article/details/127717132

版权

me 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近一直在看分层强化学习，今天看了一篇Hierarchical Reinforcement Learning for Relay Selection and Power Optimization in Two-Hop Cooperative Relay Network。两跳协同中继网络中中继选择和功率优化的层次强化学习。

他是分了两层来处理不同动作。第一层先做了中继器选择，第二层做了功率分配。第一层虽然他说了用强化学习，但是实际上他没有用具体的网络结构，他虽然有一个选择动作的网络结构，但是这个网络的优化和传统的强化不同，他是根据自己推导出的一个式子去做的。还有一点，他第一层网络的更新，是在第二层走了多少slot后。才更新一次，就是假如第二层更新50次后，第一层更新1次。第二层网络用的dueling dqn。

强化学习读书笔记之Gradient Bandit及实现（二） - 知乎 (zhihu.com)

这里面重新说一下第一层，他用强化中的Gradient Bandit，来选择动作，这个方法我之前是不了解的，他的推导和上面知乎上的链接是一样的。所以说也是具体用了强化的某一个方法。

在做实验时，说比用两层dqn效果要好

伪代码

Enabling Efficient Scheduling in Large-Scale UAV-Assisted Mobile-Edge Computing via Hierarchical Reinforcement Learning

通过分层强化学习实现大规模无人机辅助移动边缘计算的高效调度

这篇文章主要解决的无人机在计算卸载时的问题。她用分层的方法为：第一层解决的是无人机的位置，它是一个连续变量，所以用ddpg。第二层解决无人机在该位置上做的计算卸载。卸载到哪个无人机/本地，离散离量，所以用dqn

小夏小夏要坚强

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
20221106论文

第一层先做了中继器选择，第二层做了功率分配。第一层虽然他说了用强化学习，但是实际上他没有用具体的网络结构，他虽然有一个选择动作的网络结构，但是这个网络的优化和传统的强化不同，他是根据自己推导出的一个式子去做的。还有一点，他第一层网络的更新，是在第二层走了多少slot后。才更新一次，就是假如第二层更新50次后，第一层更新1次。这里面重新说一下第一层，他用强化中的Gradient Bandit，来选择动作，这个方法我之前是不了解的，他的推导和上面知乎上的链接是一样的。所以说也是具体用了强化的某一个方法。
复制链接

扫一扫

专栏目录

小夏小夏要坚强 CSDN认证博客专家 CSDN认证企业博客

码龄7年

63: 原创

34万+: 周排名

30万+: 总排名

3万+: 访问

: 等级

841: 积分

5: 粉丝

15: 获赞

19: 评论

49: 收藏

私信

关注

热门文章

分类专栏

me 1篇

最新评论

简历中异常处理
优雅的huli: 鱼皮用户中心项目全局异常封装代码哈哈哈
org.springframework.web.multipart.support.DefaultMultipartHttpServletRequest error
CSDN-Ada助手: 亲爱的博主，感谢您分享了这篇博客，让我们可以更好地理解和解决这一问题。同时，也非常欣赏您对Spring框架的深入探究和理解。为了让更多的开发者受益于您的经验和知识，我们建议您可以写一篇关于Spring框架的优化和调优方案的博客，分享一下您在实践中的心得和经验，帮助更多的开发者提高应用的性能和稳定性。期待您的下一篇精彩博客！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
lightgbm版本问题
qq_33591898: 请问除了换版本，你现在解决这个问题个了吗
美团的面试
Xd聊架构: 前排支持一下,可以的话来我博客看看吧
Delay-Aware Multi-Agent Reinforcement Learning代码分析
weixin_41825867: 这个代码是用gpu 才能跑吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。