OneEntity方法论-概述

最新推荐文章于 2024-04-22 20:29:28 发布

原创最新推荐文章于 2024-04-22 20:29:28 发布 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#big data #大数据

数据中台专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一种名为OneEntity的数据融合方法论，旨在打破数据孤岛现象。通过将多个实体归一化为OneEntity，实现数据的高效利用。文章还探讨了如何通过GProfile进行标签画像，GRelation建立实体间的关系，以及GBehavior捕捉实体的行为。

OneEntity

OneEntity概述

因为全球数据量的激增，企业会从多终端、全渠道采集到的表现形式多种多样的数据，与人有关的实体数据最少有三种类型：①业务账号信息；②PC端cookie、无线设备标志；③身份属性信息。

每天都有大量实体数据产生且分布在不同的业务单元中，这些数据天然就有被孤立的可能性。且不同业务单元出于自身发展需求来看，不同团队肯定是出于自身需求建设自有数据体系。但全局上便形成了数据孤岛。

OneEntity方法论用来打破数据孤岛，进行数据融合。

OneEntity统一实体

我们将若干个实体归拢到一起并命名为OneEntity。归拢虽然有据可依，但是不可能与现实世界一模一样，因此只可能是“无限逼近”。在此过程中，根据实体归拢的效果及能够贴上“特定标签”，OneEntity在理论上可以分为一般质量OneEntity、高质量OneEntity、高价值OneEntity。

高质量OneEntity就是可以贴上特定标签的OneEntity，一般质量OneEntity则是无法贴上特定标签的OneEntity，而高价值OneEntity则是在高价值OneEntity上提出更多要求，不仅能用标签来精准刻画，还要可精准触达。

不管在什么场景里，高价值OneEntity是所有人追求的，而怎么在海量数据中发现高价值OneEntity，很多技术人员都在做这样的探索。

GProfile全域标签

获取数据后，我们对数据进行“贴标签”。假设归拢前是1000亿条与“人”相关的实体，如果归拢为50个OneEntity，那么平均每个OneEntity有20条数据，如果归拢到10亿个OneEntity，每个OneEntity就有100条数据，100条数据刻画的OneEntity和20条数据刻画的OneEntity，效果孰强孰弱是很明显的。

GRelation全域关系

当OneEntity刻画到足够程度，如果是“人”的OneEntity，则可以找出他的亲属、朋友、校友等等；如果是“商品”的OneEntity，则可以找到他的上下游等等。

GBehavior全域行为

在现实世界中不可能实现通过一个实体了解这个实体的行为明细。而在融通数据世界里，就有望实现以OneEntity为核心将实体和行为全部串联起来。这样就可以支撑标签画像、任务关系刻画。

而这样通过建设OneEntity实体，串联实体行为形成“以用为本”的OneEntity体系，包含OneEntity、GProfile、GRelation、GBehavior。
在这里插入图片描述
通过一个人的简历来分析，一份简历通常会包含如下几个部分：

姓名、邮箱、地址等。这些是人们在现实世界中的唯一标志，就像OneEntity代表着人在大数据世界中的唯一标志。
籍贯、年龄、政治面貌、宗教信仰等。这些是人们在现实生活中的一系列标签画像，就像GProfile代表着人们在大数据世界里的标签画像。
天生或后天产生的一系列关系，如父母、子女、夫妻等，就像GRelation代表着人们在大数据世界里的各种关系。
从小到大的履历。比如学籍情况、工作经历，这些是人们在现实生活中的行为轨迹，就像GBehavior代表着人们在大数据世界里的各种行为轨迹。

GProfile

在实现OneEntity体系中，如何为OneEntity贴上标签是当前最重要和最常见的问题，他对于OneEntity分级有重要意义。
在这里插入图片描述

GProfile将“人”的立体刻画划分为“人的核心属性”和“人的向往和需求”两大部分，具体包括四大类。

人的核心属性分为自然属性和社会属性。

自然属性是指人的肉体存在及其特征，是人出生后自然存在的，且不会出现较大的改变。
社会属性是指人的实践活动基础上产生的一切社会关系的总和。人一旦进入社会就会产生社会属性。

人的向往与需求分为兴趣偏好和行业消费偏好。

兴趣偏好是人对非物化对象的内在心理向往与外在行为表达。是发自内心的兴趣或偏好。
行业消费偏好则是人对物化对象与外在行业表达，与物质世界有千丝万缕的关系。

在四类标签的基础上，可以尝试根据不同业务进一步细分为二级分类和三级分类。这样对标签进行分类，管理，并提供服务时，标签分类的合理性和易用性方面面临的挑战越来越少。

除了更好的管理和使用标签，如何高效的萃取标签也是关键。标签的萃取工作至少包括：数据收集、数据清洗、降噪；反复试用并确认最佳算法及模型；为模型选择计算因子并分配权重；最后输出标签质量评估报告。

这样的过程及其损耗高端人力，且周期漫长。
在这里插入图片描述

以OneEntity体系为核心，将OneEntity相关的实体及其行为全部串联起来，与存量标签一起作为数据源。
将萃取标签逻辑沉淀为两种，分别对应“偏好类标签”和“分类预测类标签”的工具型产品的生产过程中，其中包含确认计算因子以及权重等业务规则、选择数据样本、选择算法和模型等。
沉淀质量评估报告和生产检测、上线等管理流程。