这篇综述比较新,也比较全面,逻辑也很通畅,阅读起来难度不大,社区里已经可以找到不少笔记,所以就在这里简单记录自己的想法。
摘要:流量预测问题可以被分为时间预测和时空预测问题,预测模型可以分为统计模型、机器学习模型和深度学习模型。
1.介绍
在5G网络问题中,不仅要考虑数据传输速率,在某些特定场合下还要考虑其他指标,比如低电量消耗和改良链接。(low battery consumption and improved connectivity)
challenge:1.历史数据中复杂的内部模式(通过深度学习模型来解决)
2.实际部署,高性能预测模型和实际系统之间的差距
2.预测问题及数据集
单变量预测问题和多变量预测问题:
使用一个度量或聚合后的流量值预测:单变量
使用多个度量并同时对其预测:多变量
大多数研究仅分析单元级或聚合后的预测问题,即单变量预测。因为涉及到用户隐私,直接从用户端收集多个度量的数据难以实现。
3.数据预处理和预测模型
1.直接预测:会涉及数据的处理和插补技术
2.先分类再预测:对来自不同应用或服务的数据进行分类,(比如短信流量,通话流量,网络流量,具有物理意义)分类后的数据拥有比聚合的总流量更稳定的内部模式。
3.先分解再预测:使用单独的模型对每个分量进行预测,与2不同,这里分解后的分量没有物理意义,分解仅为实现更好的预测。
4.先聚类再预测:与2不同,数据通常从不同源收集,聚类的目的是根据不同序列的隐含相似性进行分组,以构建少量的预测模型,减少计算负担,防止过拟合。不同的聚类方法可以组合在一起使用,相似度的度量也会影响聚类。
4.评价指标
一般指标:
预测性能:大多数研究聚焦流量值的预测,但也有研究考虑预测值的趋势,此时评价指标不同,使用分类评价指标。(这里的论文看一下)
运行时间消耗:就要对训练时间进行评估。(论文看一下)
存在的问题:由于大多数的研究都是基于计算机模拟的,因此很少提及实际的设备要求。
适用于本领域的指标:考虑到模型的可用性。在调查的文献中,只有少数新的评估指标是通过结合领域知识设计的;这些在这里被称为领域适应性度量。
5.预测模型
统计模型:计算量少,在存储和计算能力有限的移动设备中具有吸引力。统计模型还具有选择合适的模型参数的理论优势,而不是机器学习模型中常见的试错过程。缺点:大多数统计模型是基于输入值和输出值之间的线性关系。
机器学习模型:比如了解过的高斯过程回归GPR。
深度学习模型:介绍了CNN、RNN、LSTM等基础,没有涉及特别新和前沿的方法。
6.辅助技术
移动性预测:当用户移动是不同基站之间流量变化的原因时,移动性预测与蜂窝流量预测相结合。
数据扩充:从现有数据中生成新数据样本,生成式对抗网络等。
迁移学习:是另一种用于处理数据短缺情况的技术(与数据扩充)。将训练好的模型在另一个任务中使用并微调。(感觉有一点类似全局-局部学习)
元学习:是在不同任务之间转移知识的另一种方法(与迁移学习)。(这里的论文记得看看)
联邦学习:是为了在数据使用被限制在本地域而不担心数据泄露的情况下实现分布式模型训练而提出的。优势是保护数据隐私。
7.应用
基站休眠:当业务需求较低时,一些基站可以关闭,或者它们可以在低功能状态下运行以节省能源,而不会降低用户的服务质量。精确的蜂窝流量预测在设计这些策略中起着核心作用。
准入控制:在繁忙时间段可以设计和使用差异化的准入控制策略。允许或阻止特定用户或应用程序使用网络资源,特别是当基站的服务能力已经处于饱和状态时。主动准入控制策略可以基于流量预测来设计,而不是仅在资源已经耗尽后才采取行动。
资源分配和调度:预测被用作设计后续分配或调度方案的基础。
网络扩容、网络切片、软件义网络:这部分不太理解,后续看一下相关文献。
移动边缘计算:移动流量卸载。
8. 未来的研究方向
1.对不同数据集的不同模型进行公平和全面的评估。在大多数调查研究中,只有一个数据集用于评估所提出或采用的预测模型,无法公平比较不同研究的预测性能。
此外,现有研究的评估指标各不相同;这些研究没有考虑训练时间消耗,也没有使用基于领域知识开发的指标。(对应标题4)
可以使用相同的数据分割率使用多个开放数据集,使用通用和特定领域的指标来评估不同的模型。
2.将预测与其部署相结合。改进的模型需要能在实践中部署,深度学习模型需要高计算或存储成本。
一种可能的解决方案是使用云计算部署蜂窝流量预测程序,该程序支持弹性计算能力。当训练预测模型时,使用更高的计算能力。当预测模型已经被训练和部署时,需要较低的预测计算能力。
另一个有前景的方向是利用移动边缘计算部署蜂窝流量预测程序。(可以看一下参考文献)
3.深化蜂窝流量预测模型和辅助技术之间的结合,这些技术的应用处于早期阶段,存在一些研究空白。这里提到了RL和区块链,可以了解一下。