【001-RL-CC】Reinforcement learning-based neural network congestion controller for ATM network

1 基本信息

ID: 001


作者:A.A. Tarraf, I.W. Habib, T.N. Saadawi

e-mail : tarraf@fuwutai.att.com


机构:Electrical Engineering Department, The City College of New York

纽约市立大学,电气工程系


发表会议:IEEE Proceedings of MILCOM, 1995

MILCOM, Military Communications Conference
无线通信会议(会议介绍相关的一篇博文算是A类吧?


标题:应用于ATM网络的基于强化学习神经网络的拥塞控制器

ATM, Asynchronous transfer mode,异步传输模式,在LAN或WAN上传输数据的宽带技术(类似于数据包是货物,ATM是传输的公路,特点是公路比较宽,传输速度快,但技术复杂且价格昂贵,5G使用的两种公路之一。)


算法:AC

AC, actor critic
policy-based与value-based合并
actor——policy gradient基于概率选择action,critic——value-based根据actor做出的action给出得分,actor——根据critic的得分修改选择action的概率。
policy:某种看到什么state采取什么action的策略,用π表示。
policy gradient:使用梯度下降法,逼近想要的policy(用reward评定策略好坏)


场景:ATM networks

ATM网络支持多媒体应用的经典网络,适合部署RL-based CC算法。
对于不同的多媒体流量,ATM有不同的QoS,例如cell loss rate(CLR)和delay。

QoS: 服务质量

cell loss rate(CLR): 信元丢失率,服务质量的一个参数,ATM信元标题的一个域,分析ATM网络中流量控制问题的基础和关键。丢失信元和成功传输信元的比率。例如,CLR高则语言和多媒体视频效果差。

信元:ATM(高速分组交换技术)的数据传输单元,可以看成一个货物。

2 内容概述

2.1 问题

在ATM,高度时变的流量模式增大了网络流量的不确定性。并且,在ATM,最小信元传输时间和低缓存大小需要高适应性和高响应性的CC算法。

2.2 方法

此文中,基于AC算法来解决这些问题。在提出的 CC 算法中,AC 侧重于基于 CLR 和语音质量的性能函数。在每步中,算法根据性能评估action。以这种方式,不同的流量模式连接对应actions。

  • states: Taped delay-value of the number of the cells, and taped delay values of the feedback control signal. 语音信元的延迟值和反馈控制信号的延迟值。

  • actions: The coding rate. 编码率

  • rewards: The input multiplexer buffer overflow, and the level of the coding rate of the input source. 输入多路复用器缓冲区溢出,以及输入源编码率的高低

2.3 结果

仿真结果表明,信元丢失率降低并且语音质量保持不变。对比ATM中基于十分准确的数学模型的传统最优控制算法,此算法可以理解网络条件的动态性,从而同时最小化CLR、最大化编码率。

2.4 评价

优:可作为预防性拥塞控制,增强统计复用增益。

由于算法是用于网络的输入访问节点(input access node),因此算法的速度不受传输时延的限制,所有控制行为都会及时避免潜在用拥塞。并且,由于多路复用器可以支持更多的资源,因此增强了统计复用增益。

缺: 有限的状态空间和性能指标。

这种算法的限制是算法相对简化。状态空间和反馈只考虑了要优化的参数,没有考虑其他参数(例如流量特征),因此不适用于复杂环境。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值