OneEntity方法论-概述

OneEntity

OneEntity概述

因为全球数据量的激增,企业会从多终端、全渠道采集到的表现形式多种多样的数据,与人有关的实体数据最少有三种类型:①业务账号信息;②PC端cookie、无线设备标志;③身份属性信息。

每天都有大量实体数据产生且分布在不同的业务单元中,这些数据天然就有被孤立的可能性。且不同业务单元出于自身发展需求来看,不同团队肯定是出于自身需求建设自有数据体系。但全局上便形成了数据孤岛。

OneEntity方法论用来打破数据孤岛,进行数据融合。

OneEntity统一实体

我们将若干个实体归拢到一起并命名为OneEntity。归拢虽然有据可依,但是不可能与现实世界一模一样,因此只可能是“无限逼近”。在此过程中,根据实体归拢的效果及能够贴上“特定标签”,OneEntity在理论上可以分为一般质量OneEntity、高质量OneEntity、高价值OneEntity。

高质量OneEntity就是可以贴上特定标签的OneEntity,一般质量OneEntity则是无法贴上特定标签的OneEntity,而高价值OneEntity则是在高价值OneEntity上提出更多要求,不仅能用标签来精准刻画,还要可精准触达。

不管在什么场景里,高价值OneEntity是所有人追求的,而怎么在海量数据中发现高价值OneEntity,很多技术人员都在做这样的探索。

GProfile全域标签

获取数据后,我们对数据进行“贴标签”。假设归拢前是1000亿条与“人”相关的实体,如果归拢为50个OneEntity,那么平均每个OneEntity有20条数据,如果归拢到10亿个OneEntity,每个OneEntity就有100条数据,100条数据刻画的OneEntity和20条数据刻画的OneEntity,效果孰强孰弱是很明显的。

GRelation全域关系

当OneEntity刻画到足够程度,如果是“人”的OneEntity,则可以找出他的亲属、朋友、校友等等;如果是“商品”的OneEntity,则可以找到他的上下游等等。

GBehavior全域行为

在现实世界中不可能实现通过一个实体了解这个实体的行为明细。而在融通数据世界里,就有望实现以OneEntity为核心将实体和行为全部串联起来。这样就可以支撑标签画像、任务关系刻画。

而这样通过建设OneEntity实体,串联实体行为形成“以用为本”的OneEntity体系,包含OneEntity、GProfile、GRelation、GBehavior。
在这里插入图片描述
通过一个人的简历来分析,一份简历通常会包含如下几个部分:

  • 姓名、邮箱、地址等。这些是人们在现实世界中的唯一标志,就像OneEntity代表着人在大数据世界中的唯一标志。
  • 籍贯、年龄、政治面貌、宗教信仰等。这些是人们在现实生活中的一系列标签画像,就像GProfile代表着人们在大数据世界里的标签画像。
  • 天生或后天产生的一系列关系,如父母、子女、夫妻等,就像GRelation代表着人们在大数据世界里的各种关系。
  • 从小到大的履历。比如学籍情况、工作经历,这些是人们在现实生活中的行为轨迹,就像GBehavior代表着人们在大数据世界里的各种行为轨迹。

GProfile

在实现OneEntity体系中,如何为OneEntity贴上标签是当前最重要和最常见的问题,他对于OneEntity分级有重要意义。
在这里插入图片描述

GProfile将“人”的立体刻画划分为“人的核心属性”和“人的向往和需求”两大部分,具体包括四大类。

人的核心属性分为自然属性社会属性

  • 自然属性是指人的肉体存在及其特征,是人出生后自然存在的,且不会出现较大的改变。
  • 社会属性是指人的实践活动基础上产生的一切社会关系的总和。人一旦进入社会就会产生社会属性。

人的向往与需求分为兴趣偏好行业消费偏好

  • 兴趣偏好是人对非物化对象的内在心理向往与外在行为表达。是发自内心的兴趣或偏好。
  • 行业消费偏好则是人对物化对象与外在行业表达,与物质世界有千丝万缕的关系。

在四类标签的基础上,可以尝试根据不同业务进一步细分为二级分类和三级分类。这样对标签进行分类,管理,并提供服务时,标签分类的合理性和易用性方面面临的挑战越来越少。

除了更好的管理和使用标签,如何高效的萃取标签也是关键。标签的萃取工作至少包括:数据收集、数据清洗、降噪;反复试用并确认最佳算法及模型;为模型选择计算因子并分配权重;最后输出标签质量评估报告。

这样的过程及其损耗高端人力,且周期漫长。
在这里插入图片描述

  • 以OneEntity体系为核心,将OneEntity相关的实体及其行为全部串联起来,与存量标签一起作为数据源。
  • 将萃取标签逻辑沉淀为两种,分别对应“偏好类标签”和“分类预测类标签”的工具型产品的生产过程中,其中包含确认计算因子以及权重等业务规则、选择数据样本、选择算法和模型等。
  • 沉淀质量评估报告和生产检测、上线等管理流程。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寒 暄

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值