基于RL的路由策略

最新推荐文章于 2024-09-03 20:40:44 发布

Swaggy_xu

最新推荐文章于 2024-09-03 20:40:44 发布

阅读量1k

点赞数

分类专栏：强化学习笔记文章标签：强化学习路由优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33961348/article/details/102764135

版权

强化学习笔记专栏收录该内容

2 篇文章

订阅专栏

叙述了基于RL的路由策略。这种方案带来的优势，同时也存在一些问题。最后提出了一些开放性的问题。

路由的任务：向用户提供端到端的服务质量保证。

蚁群算法收敛慢，时间复杂度高。

遗传算法：通过模拟自然进化过程搜索最优解的方法，是解决搜索问题的一种通用算法。可用来搜索最优解。存在局部收敛问题。（可以通过此求出一个次优解）

ad hoc 无线自组网：由于节点移动性导致的动态拓补问题。通过RL可以更好的适应拓扑变化。

WSNs 无线传感网络：是一种特殊的无线自组网，其中每一个节点都可以作为路由。本质问题，传感器节点能量约束大，处理能力有限。需要面对如何降低网络的能耗并计算传感器节点的成本来延长网络寿命。RL相对有较低的计算成本和路由开销。

new routing challengings:探索-利用困境；获得更高的收敛速度；及时监测到Q-value收敛；更高效的存储Q-value；规则的应用；Q-value初始化为近似值而不是随机数。

dual RL-based Q-routing approach 双向更新Q-value，已经被证明可以最小化端到端的延迟。提高网络性能和收敛速度。

Q-routing with dynamic discount factor:动态折扣由三个因素决定，连接稳定性，带宽效率和节点剩余能量。奖励函数为0或1，表示i节点通过j节点转发能否顺利到达目标节点。γi,j=ω MFj.BFj.PFj。使得Q-value预测更加精确，并更倾向代表讲包成功送到目标节点的可能性。减少因为连接中断而导致的路由搜索。

动态调整学习率的Q-routing，学习率基于一个包计数器，这样可以最小化每个包平均的路由时间。Q-value代表包从i节点到j节点传输的适用性。

通过实现基于强化学习的路由策略，有以下发现：实现了更低的路由消耗；实现了更高的包传输率或者更低的包丢失率；由于复杂的数据结构，需要更多的空间在存储Q-value；造成更高的路由发现延迟。

基于RL的路由策略被证明有如下优势：

1、更低的端到端延迟；

2、更高的吞吐量；

3、更高的包传输率或者更低的包丢失率；

4、更低的路由开销和更高的路由稳定性，意味着更低的包重发率；

5、更长的网络生命时间，以及更低的能量消耗。

6、更高的奖赏值，以及更低的平均路由消耗。

开放性问题：

1、动作选择的方法，如贪婪或者softmax，各有优缺点。

2、最优路由由于利用而退化（利用过多导致堵塞）。有几个解决方法，提高学习率；提高探索率；使用不同的Qos等级。

3、多智能体RL模型已协调智能体以获得最佳的网络性能为目标，但是需要额外的开销和复杂性。

4、提高探索的稳定性。

5、将事件应用在路由上。通过事件来检测q值的波动，提高收敛速度和网络性能。

6、缺乏在无线平台上基于RL的路由方案的实现。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。