数据资产入表「第十一讲」-数据治理(数据关联关系标准设计)

        前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。

上一讲介绍了多源数据融合标准设计的基本逻辑和思路

本章重点讲解关联关系建设标准

       关联关系是指数据记录的实体与实体、实体与时间、实体与地理信息等等维度之间的关系,在数据管理、信息检索、知识图谱构建等领域中,对实体之间的关系进行识别和定义,实体关联关系的建设对于提升数据质量、增强信息检索的准确性以及构建知识图谱等都至关重要。

       在构建实体关联关系之前,首先要识别出组织内部的数据包含几类实体。此类梳理过程可以按照传统的5W1H进行拆解,即who、what、where、when、why、how。

       who 指代数据中记录的实体,以电商数据为例,电商数据的实体包含 商家、用户、产品等维度;

       what 指代数据中记录的事件,例如实体发生的新闻;

       where 指代数据中记录的地理信息;

       when 指代数据中记录的事件发生时间;

       why+how可以归一为属性信息;是对what和who的补充说明;

       按照以上维度拆解,那么 who 和what 这两类信息是可以抽象成为实体存在,两类实体相互之间、实体与其他的三类属性均可以构建关联关系。

实体关联构建策略

1.实体与实体的关联关系搭建

       实体之间的关系构建主要是为了识别和挖掘实体之间的关系往来,在数字化营销、金融风控、股权穿透等众多维度都有庞大的需求,需要结合具体的场景去构建关联关系。

       实际案例1:如何去挖掘企业间是否存在疑似关联关系,下图是天眼查的一个疑似关联关系判断,是通过企业在工商注册过程中填报的电话和邮箱去判断其是否存在疑似关系。随着判断条件的增多,其疑似关系数量也会有所变化,例如是否是同一经营地点、同一网站域名,随着判断条件的增多,对于企业的数据沉淀维度和算力都提出了更高的要求。

       实际案例2:如何挖掘企业之间的股权关系。企业股权关系的挖掘是通过企业披露的股东信息和对应的持股比例计算而成,此类数据的计算结果各家略有不同。

影响数据结果的因素主要但不限于:

1.对于基础数据的归集范围和融合程度;

2.对于股权穿透过程中的归属于股东的持股比例设定和联合控股关系的设定;️

2.实体与事件的关联关系搭建

       实体与事件的关系构建主要是为了识别实体与事件的信息,例如企业与新闻的关系搭建。新闻中的实体识别是一种常见的新闻分析场景,当前的数商公司一般采用自然语言处理技术对文本进行挖掘,分析结果的准确性除了算法处理能力之外,对于数据标注的质量和数量也有一定的要求。

3.实体与时间的关联关系搭建

       实体与时间的关联关系搭建是指实体与时间要素之间的相互作用和联系,这种关系在不同的领域和上下文中有着不同的表现和重要性。现实中的典型场景是企业名称的变更,如何识别曾用名和现用名是同一个主体,此类信息的提取高度依赖信息主体的披露和唯一信息的识别,例如企业信息为强制性披露变更记录和基于统一社会信用代码识别,则该关系构建就相对容易。

4.实体与地理信息的关联关系搭建

       实体与地理信息的关联关系构建是指构建实体与空间地理信息,在分析空间地理范围内的实体信息有普遍场景。地理空间层级包含洲、国家、省份、城市、区县、乡镇街道、园区、楼宇等维度,通过实体与地理信息的关联关系搭建,可达到快速检索和区域范围分析的目的。在实操过程中,地理信息层级越细分,则定位偏差越大,且信息获取来源的不同,其结果也存在偏差。

5.实体与其他属性的关联关系搭建

       实体与其他属性的关联关系搭建的核心点是基于业务需求所定义的属性,通常是在提炼实体属性的过程中构建关联关系。

  • 20
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值