Experience-driven Congestion Control: When Multi-Path TCP Meets Deep Reinforcement Learning 笔记

本文提出了一种基于深度强化学习(DRL)的多路径TCP(MPTCP)拥塞控制框架DRL-CC。DRL-CC利用LSTM网络学习所有活动流的表示,并在actor-critic框架中进行训练,以动态调整拥塞窗口,优化整体吞吐量。实验表明,DRL-CC在保持公平性的同时,性能优于传统MPTCP算法,且在高动态网络环境中表现出良好的适应性和鲁棒性。
摘要由CSDN通过智能技术生成

原论文链接

Abstract

摘要:在这篇文章中,我们打算从利用新兴深度学习的全新的角度研究网络问题,开发一个experience-driven方法,使网络或协议从自己的经验(例如,运行时统计数据)中学习最好的办法来control itself,正如人类的学习技能一样。我们提出了基于 深度强化学习(DRL) 的拥塞控制框架DRL- cc (DRL for control)的设计、实现和评估,实现了基于多路径TCP拥塞控制的经验驱动设计思想。DRL-CC使用一个(而不是多个独立的)代理来动态、联合地对终端主机上的所有活动MPTCP流执行拥塞控制,其目标是最大化总体效用。我们的设计的新颖之处在于利用灵活的 循环神经网络LSTM ,在DRL框架下学习所有活动流的表示并处理它们的动态性。此外,我们首次将上述基于LSTM的表示网络集成到一个用于持续(拥塞)控制的 actor-critic 框架中,该框架利用新兴的确定性策略梯度以端到端方式训练critic, actor和LSTM网络。我们在Linux内核中基于MPTCP实现了DRL-CC。实验结果表明:1)在不牺牲公平性的前提下,DRL-CC在实际吞吐量方面一致且显著地优于一些著名的MPTCP拥塞控制算法;2)在具有时变流量的高动态网络环境下,DRL-CC具有灵活性和鲁棒性;3)对于常规的TCP非常友好。

1 Introduction

本文的思路比较清晰,结构如下:

  1. 简介部分
  2. 介绍DRL部分
  3. 如何将DRL运用到MPTCP CC问题中(重点)
  4. 评估(仅为了学习方法,此部分可以跳过)
  5. 做的相关工作
  6. 结论

2 DEEP REINFORCEMENT LEARNING (DRL)

介绍DRL基础知识的前戏不必多说,不懂的自行查阅资料,光看论文里讲的学DRL不一定能看懂。

3 DRL-BASED CONGESTION CONTROL FOR MPTCP

A. Overview

设计的DRL-CC有两部分:

  • Representation Network:利用 LSTM 以序列学习的方式学习当前所有MPTCP和TCP的状态的 representation
  • Actor-Critic:基于Representation Network,训练Actor网络和Critic网络

接下来介绍下State、Action、Reward 如何表示。

State
原文中的 s t i = [ s t 1 , 1 , . . . , s t i , k , . . . , s t N , K i ] 和 s t = [ b t i , k , g t i , k , d t i , k , v t i , k , w t i , k ] s^i_t=[s_t^{1,1},...,s_t^{i,k},...,s_t^{N,K_i}] 和 s_t =[b_t^{i,k},g_t^{i,k},d_t^{i,k},v_t^{i,k},w_t^{i,k}] sti=[st1,1,...,sti,k,...,stN,Ki]st=[bti,k,gti,k,dti,k,vti,k

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值