CM通信集团资产图谱构建流程&建模业务规则

本文引用《CM通信集团成都分公司资产管理优化研究——基于资产图谱构建与应用》
作者:孙熙麟
创作:对原作者的文章进行了整理和思考

1、资产图谱构建流程

1.1 目标通信企业构建资产图谱的难点

  企业资产图谱本质上一种行业知识图谱。其对具体业务问题的定义数据收集预处理资产图谱的设计和存储以及上层应用都是来源于知识图谱的理论和方法论,深度融合了该企业的行业知识和数据(以电信运营公司为例)。
  首先,电信运营企业属于重资产公司企业,通信行业的固定资产具有自己的一些重要特征:资产分散,覆盖面广。一般说来为了提升市场竞争力,尽可能的建立基站,和扩容设备等固定资产,同时由于新的技术迭代速度明显加快,特别是2019年,5G时代元年到来后,5G通信资产、模块设备的更新换代,再加上大量存量资产,使得大量资产状况更加难以管控。
  也就是说,从2G到5G,过去数十年是遗留了很多类似基站这样的大型重资产。像5G还没有大面积普及的2021年,4G还是我们大部分人的选择。而历史遗留下了2G、3G基站仍然存在,但是5G时代已经来临,更新换代的速度加快了,如何让资产更上时代的脚步呢?我们需要更加有效的处理资产数据的方法——构建知识图谱,让新旧资产的关系和变更一目了然。
  如上所述,资产图谱作为一种领域知识图谱的应用,汇聚了通信行业和CM集团(中国移动)特有的数据:位置点,资源点,网络资源,资产目录,资产价值等实体数据以及实体之间的关系数据。与通用知识图谱相比,其对结构化数据的依赖更强,更注重行业和数据的双驱动构建模式。通过梳理现有的数据流和业务流来做好资产图谱构建的前期基础数据准备工作。所以,我们要有业务逻辑,不然最后构建出来的知识图谱分析的结果对现实毫无帮助!
  其次,构建过程中需要遵从比较严格的国家标准,行业规章制度,企业往往面临着数据治理层面的问题,更重视:
1、数据的标准和数据的规范,保证数据的合规
2、数据的唯一性,减少数据冗余,提高数据一致性
3、补录数据缺失项数据质量问题
  注重元数据的管理。要求充分的数据调研剔除从业务驱动的角度看不符合业务逻辑的数据,为的是更加合理的组织行业的知识。
  在数据方面,资产图谱涵盖了资产目录编码、资产目录描述、资产类型、资产责任人、任务点名称、设备、资源、物料、厂家箱号、项目、物料供应商、物料描述、验收地点(省/自治区/直辖市)、验收地点(市)、验收地点(县/区)、验收地点(详细地址)、验收地点(经纬度)等实体和这些实体之间的关系。
  最后,资产图谱作为通信领域的用于资产溯源管理的应用,更加注重行业知识的深度,数据的来源也更有针对性,主要构成为各个业务部门的业务数据和外部行业相关的理论知识等结构化,半结构化和非结构化数据。论文当前研究阶段以跨部门的行业数据涉及到的业务规范,行业标准,行业制度为主体进行构建。构建研究主要基于空间资源、硬件资源、无线网、无线局域网、传输网专业等模型

1.2 资产图谱的构建流程

  资产图谱构建流程如下图所示:
资产图谱构建与应用全流程
  从上图可知,数据收集需要确定数据源。对于我来说,如何确定数据源非常关键。因为我没有论文的数据来源(应该是没有给出来的),只能自己构造、爬取或者是选取别的数据源。但是自己构造的通信行业数据,带来的不确定性直接影响知识图谱的构建结果,而且成本非常大,所以我当前还是尝试查找是否有合适的数据源。

1.3 资产图谱的架构体系

  资产图谱的形成是对资产的整个生命周期的溯源管理,需要逻辑上建立资源资产本体确定资产资源相关的实体和属性,事实的表达。这里选择采用 “自顶向下” 的方式来构建资产图谱。“自顶向下” 指的是首先为资产图谱定义好本体与数据模式,再将实体加入到知识库。CM集团现有的系统可以提供丰富的结构化和非结构化的知识。自顶向下的方式构建可以充分利用好现有的数据资源。基于构建方式,形成如图所示的架构体系:
资产图谱总体架构
  资产图谱的总体架构由源数据层知识获取层资产知识融合和存储层资产知识加工计算层资产图谱应用层五个层级构成:
总 体 架 构 : { 顶 层 : 资 产 图 谱 应 用 层 资 产 知 识 加 工 计 算 层 资 产 知 识 融 合 和 存 储 层 知 识 获 取 层 底 层 : 源 数 据 层 总体架构: \left\{ \begin{matrix} 顶层:资产图谱应用层\\ 资产知识加工计算层 \\ 资产知识融合和存储层 \\ 知识获取层 \\ 底层:源数据层 \end{matrix} \right. :::

1.4 数据分层分类

1.4.1 资源数据

  论文中提到,根据与综资系统专家探讨结果,建议对资源数据进行模型分层归类,依据资源模型分层方案,将资源数据区分为7个层级:

层级代表含义
LV1省→市→区三级地址分区数据
LV2空间资源点数据
LV3逻辑资源数据
LV4机架
LV5设备/机框
LV6板卡
LV7端口

  名词解释一下,参考知乎的回答:综资一般指中国移动的网络综合资源管理系统。
  其中,空间资源点数据按现有模型可以初步简单分为Ⅰ类资源点(由站点+机房的形式进行定义)和Ⅱ类资源点(由位置点的数据进行定义)。
  逻辑资源主要用于表示BBU等由一系列物理资源共同组成的集合体,每一个逻辑资源都具备了独立完成业务逻辑的能力。网元和小区都是重要的逻辑概念。网元包含的内容很多,其中,基站也是其中的一个网元,除此外还有MME、SGW、PDN等。网元划分的粒度有物理网元,逻辑网元,等效网元数等。宏蜂窝覆盖后,每一个基站的覆盖范围即为一个蜂窝CELL,中文一般称为小区。
  基于已有的资产资源站点地址映射成果(LV1),把资源中的逻辑关系还原成物理关系。在类别+站点(机房) + 时间 + 项目+资源状态等维度的基础,进行从LV6到LV1的逆向聚合关联;对于不能有效关联的数据,考虑采用聚类算法,模糊匹配,并考虑交差验证算法。根据综合资源管理专家建议,各类专业模型将最终归集于机房/资源点和位置点,资源侧物资汇聚流程如下图所示:资源侧地址归一化

1.4.2 资产数据

  资产侧形成与资源映射的前提是依据固定资产目录分类与编码规则构建与资源端的设备映射。通过关联资产地址表将地址维度粒度分为省市区和资产目录的级别,便于后续的一体化映射处理:
资产侧地址归一化流程

2、资产图谱建模业务规则

  资产图谱针对行业领域构建,其通用性主要集中于行业内部相关的业务规则。有上文可知,与通用的知识图谱的构建技术相比,资产图谱构建的内在逻辑要求更加严谨。

2.1、基础领域本体

  本体作为知识图谱知识库的概念模板,是构成资产图谱数据的一种模式约束,本体构建的流程和规范成功与否直接关系到CM集团的资产图谱构建质量和后续的资产管理应用场景的使用效果。基于构建好的本体,将从数据库中抽取并融合后的知识本体对应,形成实体。由于结构化数据的固定性,实体与属性之间的关系可通过样本数据训练进行构建。

2.1.1 资源数据层级

  当前的资产图谱构建研究主要基于空间资源、硬件资源、无线网、无线局域网、传输网专业模型进行。如下图所示,以综合资源为例,本体主要有核心设备、基站、小区、BBU、RRU、板卡、天线等。
  其中,无线网络基站定义原则:BTSSITE、NODEB、E-NODEB,G-NODEB 应通过归属的CELL体现其覆盖范围,具体原则应参照网络制式(网络的类型)、小区覆盖区域两个维度,按照如下优先原则定义BTSSITE、NODEB、E-NODEB基站:
基础领域本体

2.1.2 资产数据层级

  资产管理侧,本体主要识别为资产、资产类别(资产目录)、责任人、使用人、地址、项目、任务点。
资产数据层级
  综资地址唯一标识为机房/位置点名称,通过站点名称 + 地址进行综资地址信息识别。有效地支撑业务的分析和决策,正确一致地展示数据信息,拥有广泛的适用性,易于添加新的节点类型和关系。

2.2、构建规则来源

2.2.1 无线资源

  资产图谱构建的基础规则来源和资源汇聚依据是基于中国CM集团网络资源核心数据模型 无线资源说明:

  1. 最小核心数据模型是集团层面定义的用于管理网络资源必须的基本数据信息,或用于为拓扑呈现或关联查询等基础上层应用所需要的数据信息提供支撑。
  2. 最小核心数据模型中的字段均是描述及管理网络资源的必不可少的属性。通过与存在关联关系的其他对象获取到的属性,不应纳入该资源的最小数据集。
      资产端只有地址信息可以对资源端形成映射,也就是说图谱的实体关联关系的提取只能依据地址进行,但由于数据质量和历史原因存在大量不准确的信息。部分资产目录不在此次资产图谱构建研究范围(详见该论文)。
       成都分公司结合集团要求和四川省网络部管理实际情况,对于无线和基站传输设备中可映射的部分,明确映射层级如下:
       1、独立设备资产资源串号映射
       资源侧内部可以直接映射的部分,对于独立设备(从采购到退出本身及组件不变化的设备),资产与资源直接构建映射,选取设备串号作为映射中介。
    1
      2、非独立设备资产资源串号映射
      对于非独立设备,资产与资源间接构建映射,选取主控板卡串号作为映射中介,利用主控板卡动态监控设备状态(对于有主备两块主控板卡,选取主用主控板卡)。
    2
      3、资产资源间接映射
      而间接映射对于设备本身不具备串号或串号获取难度较大的情况,选取资源码或溯源码作为映射中介。
    3
2.2.2 物理架构

  设备之间的物理架构,也是管理维度之一,以4G 网元为例,eNodeB 的系统架构:BBU+RRU。
资源相关设备物理架构资
  如上图所描述的资源相关设备物理架构,eNodeB 硬件系统采用分布式架构,按照基带,射频分离的架构设计,基本功能模块有两种:基带控制单元BBU和射频拉远单元RRU。基带控制单元和射频拉远单元之间采用CPRI/OBRI/Ir接口光纤进行通信。通过两种基本模块与配套设备灵活组合,部署方式既可以在同一个机柜内放置基带部分和射频模块,又可以以射频模块拉远方式部署,从而形成丰富多样的站点解决方案,满足客户需求。

2.2.3 资产转资规则

  资产转资规则作为资源端到资产端转资映射资产目录如下图所示,分成四个转资颗粒度层级,机柜、机框、独立设备和地点,如室内分布系统可以按照某一站点地点下的实际套数进行转资管理。
资产转资映射目录
  如下图描述,主要的汇聚流程有:板卡归集到所属网元,4G 网元ENODEB 或者5G 网元GNODEB。RRU 通过所属网元关联到资源点或机房,并关联到所属BBU。网元的归集可以直接到所属的机房/位置点。各类资源最终实现地址归一化。通过关联小区(4 个)搜索关联小区,通过小区搜索对应的基站(2G/3G/4G/5G),通过基站表判断网络制式,对同一个天线而言,如果绑定了多个不同的制式,按照优先级 5G>4G>3G>2G 选择优先级最高的制式作为最终结果。
资源侧汇聚业务规则

2.3、 地理位置标准

  除了遵从一定的地址标准,对应资产图谱构建而言,资产的地理信息作为最上层的构建维度,提供了基础维度数据,其规则提取和梳理至关重要。

  1. CM集团四川分公司标准地址分级规则为10级结构,成都分公司采用这一标准地址层级结构,1到10级为独立的层级。
层级中文名称
1市、州
2区、县、县级市
3乡、镇、街道办
4路、行政村、自然村
5街(巷、里)、村组
6门牌编码、小区、大 厦、大院、厂区
7楼、栋、建筑名(号) 独立楼栋,塔楼
8单元、梯(号)
9
10房号、方位
  1. 标准地址采集录入基本规则
      详见论文。
  2. 经纬度纠偏
      由于CM集团成都分公司使用的经纬度坐标是“火星坐标”,经纬度又是资产管理重要的基础地址数据维度的辅助判断维度,通过调用百度API统一对资产和资源侧地址进行转换,通过纠偏形成统一的维度。进一步通过经纬度比较换算成直线距离,为后续资产图谱构建使用的地址相似度提供参照标准。

以上,目前是处于数据采集阶段,包含了初步的数据分类。当前遇到的问题主要有以下几点:
1、企业内部数据难以爬取。
2、自己构造数据很难符合通信业务要求,且数据量非常庞大,成本过高。
3、如果获取的数据不符合要求,会严重影响知识图谱构建的结果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TerryBlog

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值