在新质生产力高质量发展的要求下,中国移动在“人工智能+”和 “数据要素X”方面不断发力,持续发布高质量电信数据集。围绕网元智能、运维智能、服务智能三大方向建设,涵盖无线信道、基站、云网、核心网、哑资源等多领域,支持感知、诊断、预测、决策等多类网络AI能力研发的标志性数据集。相关数据集均由智慧网络开放创新平台承载。中国移动 - 智慧网络新一代人工智能开放创新平台https://jiutian.10086.cn/open/
无线小区多指标时空序列预测:
无线通信场景下现网长时间(2个月)、大规模(万量级)移动通信小区历史序列数据,数据量级达到亿条,涵盖流量、用户数等重要指标及多维度小区属性信息,该数据集可用于训练时空联合序列预测模型,预测 多项小区性能指标的演变趋势, 从而为网络规划和维护工作制定更精准智能的优化策略。下面详细介绍引自智慧网络开放创新平台官网无线小区多指标时空序列预测介绍页面
特色优势
无线小区多指标时空序列预测任务的特色在于其包含了大规模移动通信小区、多维度小区属性信息以及较长时间跨度的序列历史数据,涵盖了流量和用户数等重要指标,使得研究者可以深入探索无线通信领域中多项性能指标的演变趋势,揭示指标之间的复杂关系,更全面地了解无线网络的运行状态,从而为网络规划和维护工作制定更精准智能的优化策略。它的推出必将引领无线通信领域的创新,为解决实际问题提供强有力的支持。
背景介绍
在现代通信系统中,无线小区是无线网络中的基本单元,其维护和优化对整个网络的性能和覆盖范围有着重要的影响。然而,海量无线小区的数量和复杂性给网络规划和维护带来了很大挑战,因此如何准确地预测未来一段时间内无线小区各项指标的变化越来越受到人们的关注。
主题任务
本任务提供某省市大量移动通信小区多项性能指标的历史数据用于训练,并提供 2 份测试数据,小区数量、名称与训练数据相同,预测任务为根据 7 天历史数据推理未来 3 天的数据,具体时间如下表所示:
序号 | 提供历史时间段 | 待预测时间段 |
---|---|---|
1 | 2021.04.13-2021.04.19 | 2021.04.20-2021.04.22 |
2 | 2021.04.26-2021.05.02 | 2021.05.03-2021.05.05 |
研究者使用训练好的算法模型对每段测试数据进行预测时,仅可使用对应的历史时间段内数据,例如预测 2021.04.20 - 2021.04.22 的数据,仅可使用 2021.04.13 - 2021.04.19 内的数据作为模型输入。
数据来源
本任务提供某省市万级别小区多个时间序列指标数据(时间跨度为 2021 年 2 月 9 日至 2021 年 4 月 9 日,时间粒度为 15mins)以及所有小区的属性数据,数据均已做脱敏处理。
数据文件说明
数据集文件名称为 无线小区多指标时空序列预测数据集.zip,包括 train 和 test 两个文件夹,train 中包含 data 和 attributes 两个文件夹,分别存放小区多指标时间序列数据和小区属性信息。test 中包含名为 20210413_20210419 和 20210426_20210502 的 2 个文件夹,每个文件夹包含约 6.5 万个名为 xx.csv(xx 为小区的 CELL_ID,例:1.csv)的小区多列时间序列指标训练数据,对应时间跨度分别为 2021 年 4 月 13 日至 2021 年 4 月 19 日、2021 年 4 月 26 日至 2021 年 5 月 2 日,粒度为 15mins。
无线小区多指标时空序列预测数据集.zip/
- train/
- data/
- 0.csv
- ……
- attributes/
- attributes.csv
- data/
- test/
- 20210413_20210419/
- 0.csv
- ……
- 20210426_20210502/
- ……(同上)
- 20210413_20210419/
样例数据说明
1、小区的多列时间序列指标
序号 | 字段名称 | 字段数据类型 | 字段描述 | 备注及数据说明 |
---|---|---|---|---|
1 | DATETIME_KEY | datetime | 时间戳 | 标准时间格式,示例:2020-11-12 16:40:00 |
2 | FLOW_SUM | float | 业务流量(MB) | 数据范围:>=0 |
3 | USER_COUNT | int | 用户数 | 数据范围:>=0 |
DATETIME_KEY | FLOW_SUM | USER_COUNT |
---|---|---|
2021-2-9 00:00:00 | 100 | 120 |
2021-2-9 00:15:00 | 98.83 | 137 |
2021-2-9 00:30:00 | 100 | 102 |
2021-2-9 00:45:00 | 100 | 53 |
... | ... | ... |
2、小区属性信息
序号 | 字段名称 | 字段数据类型 | 字段描述 | 备注及数据说明 |
---|---|---|---|---|
1 | CELL_ID | int | 小区 ID | 已脱敏 |
2 | LATITUDE | float | 小区纬度 | 已脱敏 |
3 | LONGITUDE | float | 小区经度 | 已脱敏 |
4 | TYPE | int | 小区覆盖类型 | 已脱敏 |
5 | SCENE | int | 小区覆盖场景 | 已脱敏 |
CELL_ID | LATITUDE | LONGITUDE | TYPE | SCENE |
---|---|---|---|---|
0 | 392.1 | 219.2 | 0 | 0 |
1 | 392.3 | 219.4 | 1 | 3 |
2 | 392.5 | 219.6 | 2 | 2 |
3 | 392.7 | 219.8 | 0 | 1 |
... | ... | ... | ... | ... |
运行环境
本任务运行环境主要包括 Python 3.7.6、numpy 1.19.5、pandas 1.0.4、keras 2.4.3 和 tensorflow 2.2.0 等。
代码示例
互联网代码参考()
1. 原始数据读取
使用第三方库 pandas 读取本任务提供的 .csv 格式数据,以读取 CELL_ID 为 0 的小区多列时间序列指标数据为例,示例代码如下:
import os
import pandas as pd
train_path = '/root/mydata/train/data'
file = os.listdir(train_path)[0]
sequential_indicators_df = pd.read_csv(os.path.join(train_path, file))
assert len(sequential_indicators_df) == 60 * 4 * 24
sequential_indicators_df.sort_values(by='DATETIME_KEY', axis=0, inplace=True)
sequential_indicators_df.reset_index(drop=True, inplace=True)
sequential_indicators_df[['FLOW_SUM', 'USER_COUNT']].fillna(-1)
读入小区多列时间序列指标数据的具体格式请参考数据介绍中的样例数据说明部分。
2. 预测结果输出
输出模型预测结果的样例,以 20210413_20210419 批次预测结果为例,示例代码如下:
import pandas as pd
pred_path = '/root/teamshare/20210420_20210422.csv'
pred_res = pd.read_csv(pred_path)
print(f"example of pred_res:\n{pred_res.head(5)}")
有疑问可添加平台小助手微信 cmri_open 咨询
开放创新平台小助手