大规模无线小区多指标时空序列预测（含任务、数据集、代码资源）

qq_38603908

已于 2024-03-20 09:20:54 修改

阅读量1.2k

点赞数 22

分类专栏：自智网络网络智能化数据集文章标签：开发语言人工智能机器学习深度学习数据分析信息与通信

于 2024-03-14 11:46:35 首次发布

本文链接：https://blog.csdn.net/qq_38603908/article/details/136700538

版权

自智网络同时被 3 个专栏收录

1 篇文章

订阅专栏

网络智能化

1 篇文章

订阅专栏

数据集

1 篇文章

订阅专栏

在新质生产力高质量发展的要求下，中国移动在“人工智能+”和 “数据要素X”方面不断发力，持续发布高质量电信数据集。围绕网元智能、运维智能、服务智能三大方向建设，涵盖无线信道、基站、云网、核心网、哑资源等多领域，支持感知、诊断、预测、决策等多类网络AI能力研发的标志性数据集。相关数据集均由智慧网络开放创新平台承载。中国移动 - 智慧网络新一代人工智能开放创新平台https://jiutian.10086.cn/open/

无线小区多指标时空序列预测：

无线通信场景下现网长时间（2个月）、大规模（万量级）移动通信小区历史序列数据，数据量级达到亿条，涵盖流量、用户数等重要指标及多维度小区属性信息，该数据集可用于训练时空联合序列预测模型，预测多项小区性能指标的演变趋势，从而为网络规划和维护工作制定更精准智能的优化策略。下面详细介绍引自智慧网络开放创新平台官网无线小区多指标时空序列预测介绍页面

任务、数据集、代码资源

特色优势

无线小区多指标时空序列预测任务的特色在于其包含了大规模移动通信小区、多维度小区属性信息以及较长时间跨度的序列历史数据，涵盖了流量和用户数等重要指标，使得研究者可以深入探索无线通信领域中多项性能指标的演变趋势，揭示指标之间的复杂关系，更全面地了解无线网络的运行状态，从而为网络规划和维护工作制定更精准智能的优化策略。它的推出必将引领无线通信领域的创新，为解决实际问题提供强有力的支持。

背景介绍

在现代通信系统中，无线小区是无线网络中的基本单元，其维护和优化对整个网络的性能和覆盖范围有着重要的影响。然而，海量无线小区的数量和复杂性给网络规划和维护带来了很大挑战，因此如何准确地预测未来一段时间内无线小区各项指标的变化越来越受到人们的关注。

主题任务

本任务提供某省市大量移动通信小区多项性能指标的历史数据用于训练，并提供 2 份测试数据，小区数量、名称与训练数据相同，预测任务为根据 7 天历史数据推理未来 3 天的数据，具体时间如下表所示：

序号	提供历史时间段	待预测时间段
1	2021.04.13-2021.04.19	2021.04.20-2021.04.22
2	2021.04.26-2021.05.02	2021.05.03-2021.05.05

研究者使用训练好的算法模型对每段测试数据进行预测时，仅可使用对应的历史时间段内数据，例如预测 2021.04.20 - 2021.04.22 的数据，仅可使用 2021.04.13 - 2021.04.19 内的数据作为模型输入。

数据来源

本任务提供某省市万级别小区多个时间序列指标数据（时间跨度为 2021 年 2 月 9 日至 2021 年 4 月 9 日，时间粒度为 15mins）以及所有小区的属性数据，数据均已做脱敏处理。

数据文件说明

数据集文件名称为无线小区多指标时空序列预测数据集.zip，包括 train 和 test 两个文件夹，train 中包含 data 和 attributes 两个文件夹，分别存放小区多指标时间序列数据和小区属性信息。test 中包含名为 20210413_20210419 和 20210426_20210502 的 2 个文件夹，每个文件夹包含约 6.5 万个名为 xx.csv（xx 为小区的 CELL_ID，例：1.csv）的小区多列时间序列指标训练数据，对应时间跨度分别为 2021 年 4 月 13 日至 2021 年 4 月 19 日、2021 年 4 月 26 日至 2021 年 5 月 2 日，粒度为 15mins。

无线小区多指标时空序列预测数据集.zip/

train/
- data/
  - 0.csv
  - ……
- attributes/
  - attributes.csv
test/
- 20210413_20210419/
  - 0.csv
  - ……
- 20210426_20210502/
  - ……（同上）

样例数据说明

1、小区的多列时间序列指标

序号	字段名称	字段数据类型	字段描述	备注及数据说明
1	DATETIME_KEY	datetime	时间戳	标准时间格式，示例：2020-11-12 16:40:00
2	FLOW_SUM	float	业务流量（MB）	数据范围：>=0
3	USER_COUNT	int	用户数	数据范围：>=0

DATETIME_KEY	FLOW_SUM	USER_COUNT
2021-2-9 00:00:00	100	120
2021-2-9 00:15:00	98.83	137
2021-2-9 00:30:00	100	102
2021-2-9 00:45:00	100	53
...	...	...

2、小区属性信息

序号	字段名称	字段数据类型	字段描述	备注及数据说明
1	CELL_ID	int	小区 ID	已脱敏
2	LATITUDE	float	小区纬度	已脱敏
3	LONGITUDE	float	小区经度	已脱敏
4	TYPE	int	小区覆盖类型	已脱敏
5	SCENE	int	小区覆盖场景	已脱敏

CELL_ID	LATITUDE	LONGITUDE	TYPE	SCENE
0	392.1	219.2	0	0
1	392.3	219.4	1	3
2	392.5	219.6	2	2
3	392.7	219.8	0	1
...	...	...	...	...

运行环境

本任务运行环境主要包括 Python 3.7.6、numpy 1.19.5、pandas 1.0.4、keras 2.4.3 和 tensorflow 2.2.0 等。

代码示例

互联网代码参考（）

1. 原始数据读取

使用第三方库 pandas 读取本任务提供的 .csv 格式数据，以读取 CELL_ID 为 0 的小区多列时间序列指标数据为例，示例代码如下：

import os
import pandas as pd

train_path = '/root/mydata/train/data'
file = os.listdir(train_path)[0]
sequential_indicators_df = pd.read_csv(os.path.join(train_path, file))
assert len(sequential_indicators_df) == 60 * 4 * 24
sequential_indicators_df.sort_values(by='DATETIME_KEY', axis=0, inplace=True)
sequential_indicators_df.reset_index(drop=True, inplace=True)
sequential_indicators_df[['FLOW_SUM', 'USER_COUNT']].fillna(-1)

读入小区多列时间序列指标数据的具体格式请参考数据介绍中的样例数据说明部分。

2. 预测结果输出

输出模型预测结果的样例，以 20210413_20210419 批次预测结果为例，示例代码如下：

import pandas as pd

pred_path = '/root/teamshare/20210420_20210422.csv'
pred_res = pd.read_csv(pred_path)
print(f"example of pred_res:\n{pred_res.head(5)}")