成果分享：基于边缘计算的视频用户体验联合优化-CSDN博客

针对多用户竞争带宽导致的视频流体验不公平问题，文章提出了一种名为Flex-Steward的基于边缘计算的用户体验联合优化解决方案。该方案利用深度强化学习算法在边缘节点进行码率自适应决策，旨在提升多用户体验的公平性同时实现服务等级差异化。实验结果显示，Flex-Steward能显著提高用户体验的公平性和满意度，降低QoE标准差，并在效用值公平性和QoE损失之间取得良好平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

多视频流竞争同一条瓶颈带宽的现象会造成用户体验波动且不公平。针对多用户竞争带宽所造成的问题，本文提出了一种基于边缘计算的用户体验联合优化方案Flex-Steward。用户体验联合优化是指在提升多用户体验公平性的同时，对不同服务等级的用户实现差异化服务。Flex-Steward方案将基于深度强化学习的码率自适应算法部署在距离用户较近的边缘节点，该算法实时为其所管辖用户进行码率自适应决策，以实现边缘用户集群的用户体验联合优化。通过实验平台验证，Flex-Steward可以将多用户间的体验公平性提升10.9%～41.7%。

Xiaoteng Ma, Qing Li, Yong Jiang, Gabriel-Miro Muntean, Longhao Zou, "Learning-Based Joint QoE Optimization for Adaptive Video Streaming Based on Smart Edge", in IEEE Transactions on Network and Service Management 2022

Xiaoteng Ma, maxt17@mails.tsinghua.edu.cn

Qing Li, liq@pcl.ac.cn/andyliqing@gmail.com

https://ieeexplore.ieee.org/document/9690596

背景

近年来，基于HTTP的码率自适应流成为视频传输的主流形式，多种码率自适应方案相继被提出。此类方案通过在时变网络环境下为用户选择合适的码率，从而最大化用户体验。然而，多数码率自适应方案仅根据端侧感知特征进行码率自适应决策，贪心地占用网络资源，进而造成用户体验的不公平。部分方案为了提升用户间用户体验的公平性，降低了用户请求的码率，但同时也降低了分享带宽的利用率。

从内容提供商的角度看，其往往希望留住更多数量的用户，从而获得更大的收益。因此，内容提供商需要以全局的视角，在有限的网络资源条件下，联合优化多用户的用户体验。一方面，当多个用户对内容提供商来说同等重要时，内容提供商需要保障它们有相同的用户体验；另一方面，内容提供商期望为用户提供区分服务，为服务等级高的用户提供更高的用户体验，以进一步提升其经济收益。

然而，实现用户体验联合优化存在诸多挑战。一方面，用户体验的控制方法是一个具有挑战性的课题。它仅可通过有限的动作空间（视频码率）来权衡多个与用户体验相关的指标。另一方面，当多个用户竞争同一条瓶颈带宽时，会进一步造成用户体验的不公平和不稳定。近年来，随着边缘技术的快速发展，为用户体验联合优化带来了新的契机。内容提供商可以在边缘节点部署用户体验联合优化算法。边缘节点通过实时感知其所所覆盖的在线用户状态，智能地为用户进行码率自适应决策，从而实现用户体验的联合优化。

关键设计

A. 系统架构

图1 Flex-Steward的传输架构

图1所示为Flex-Steward基于的网络传输架构。视频以视频块的形式存储在云服务器中，用户通过HTTP协议向云服务器请求视频块。Flex-Steward方案引入了边缘计算节点，通过将基于强化学习的码率决策算法部署在边缘计算节点上，实时感知边缘网络中在线用户的状态，自适应地为用户进行码率决策，从而实现用户体验的联合优化。

B. 决策流程

图2 码率自适应决策流程图

图2展示了边缘节点为单个用户i进行码率决策的主要流程: （1）当边缘节点感知到用户i请求视频块n时，测量模块会将用户i的状态信息发送该强化学习进程g的队列中；（2）当进程g需要为用户i进行码率决策时，队列会将用户i的状态向量输入到神经网络和进程g的（状态，动作，奖励）缓存模块中，神经网络会为用户i进行进行码率决策；（3）进程g将码率决策发送到（状态，动作，奖励）缓存模块中；（4）用户i根据边缘节点提供的码率决策，向云服务器请求视频块；（5）边缘服务器根据用户侧发来的状态更新信息更新测量模块中记录的用户信息；（6）测量模块将上一个决策动作所带来的奖励发送到进程g的（状态，动作，奖励）缓存模块。

C. 算法设计

Flex-Steward采用了深度强化学习算法进行码率自适应决策。下面将对算法的状态、动作和奖励进行介绍。

状态：Flex-Steward分为全局状态和用户状态。全局状态表征边缘服务器所管辖的在线用户整体的网络环境和QoE状态。用户状态表征需要决策码率的用户的播放状态，包括当前缓存，历史QoE，上一个视频块的质量，服务等级，下一个视频块的可选质量和大小等。

动作：算法的动作空间由下一个视频块可选的码率决定。

奖励：Flex-Steward的最终目标是保障用户QoE需求的同时实现区分服务，并提升同服务等级用户间的QoE公平性。为实现此目标，我们引入了效用值来归一化内容提供商希望为用户提供的QoE值。效用值定义如下：

不同服务等级的用户会有不同的权重w，QL表示用户当前QoE与其最高QoE的数值之差。基于此，我们将算法的奖励函数定义如下：

奖励函数包括两个部分。第1部分表示算法希望可以获得较高的效用值，第2部分表示算法应避免当前用户的效用值偏离全局效用值。

实验结果

我们采用4台配置有两个Intel Xeon E5-2600CPU的服务器搭建视频传输平台，其中1台为源服务器，1台为边缘服务器，2台用来模拟用户的请求行为。

我们将Flex-Steward与6种码率自适应方案进行对比：基于探测带宽的码率自适应方案RB；基于缓存状态的码率自适应方案BB和Bola；考虑公平性的码率自适应方案Festive；基于博弈论的码率自适应方案Gta；基于边缘代理，联合多用户状态的启发式码率推荐方案Fineas。

表1 用户QoE分布

表2 相同服务等级的用户的QoE的标准差

表1展示了实验中各种类型的用户的QoE均值分布。其中，用户的类型通过[设备]+[服务等级]来区分。例如，PH1代表服务等级为1的手机用户。从表1可以看出，采用Flex-Steward方案可以使具有相同服务等级的用户有更公平的QoE。表2展示了相同服务等级的用户的QoE的标准差，Flex-Steward具有最低的QoE标准差。另一方面，从表1可以看出，Flex-Steward实现了不同服务等级用户的区分服务。

图4 各实验方案的效用值公平性和QoE损失的权衡

图4展示了在不同共享带宽大小和在线用户数量下，不同方案的效用值不公平性（标准差）和最大QoE损失的分布。最大QoE损失指在线用户具有最低QoE用户的QoE损失值，该值越大，证明用户有越大退出观看的风险。从图中可以看出，相比于除Fineas的方案，Flex-Steward有着最佳的效用值公平性；相比于Fineas，Flex-Steward可以更好地保障用户的QoE。

长期招聘&欢迎合作

SIG（Smart Internet Group）小组联合清华大学、鹏城实验室、南方科技大学等科研力量，主要探索智能拥塞控制、分布式网内智能流量调度、自动化网络故障感知与定位、异常流量感知与DDoS防御、端边云协同的智能视频传输/分析、超低时延视频直播等，期待合作，一起实现Smart Internet！

团队长期招聘：研究员/副研究员/助理研究员/博士后（博士后/助理研究员最低年薪50万+，副研究员70万年薪起，特别优秀者可突破限制）、访问学生（优秀在读博士生，地点：深圳，包住宿费用，同时补助达到300元/天）。

此外，团队长期招聘科研实习生（本科或硕士），实习优异者，可推荐保送清华！亦可以申请清华-鹏城实验室联培博士，每年补助18万（特别优异者，每年额外奖励5万）！

团队拥有强力的软硬件工程师团队，助力研究方案的原型化实现及真实场景部署！

有兴趣者，欢迎联系李老师：andyliqing@gmail.com/liq@pcl.ac.cn