用户id生成规则_阿里/网易/美团/58用户画像中的ID体系建设

前言

在《标签构建过程中,如何快速盘点业务及数据需求?》梳理完标签画像体系的业务需求后,索隆开始了对画像体系的整体设计,其中首要遇到的就是用户ID体系的打通相关的问题。

公司各业务线ID繁多,数据割裂,如何才能尽可能关联更多的数据,以准确的描绘出一个用户的画像呢?

接下来我们来看看索隆通过对界内科技巨头:阿里、网易、美团、58的调研分析,来一步步建立自己公司的ID-Mapping体系的过程。

1、阿里OneID

阿里巴巴作为一家包含多条业务线的公司,如电商、金融、广告、文化、教育、娱乐、设备和社交等领域,数据区域包含国内、国外;数据场景包含线上的人货场钱、线下的人货场钱位置等数据,以及物流、用餐、咨询、影视、出行、阅读、音乐和健康等相关数据。

ID类型包含phone、PC cookie、IMEI与IDFA、淘宝账户、支付宝账户、邮箱等。

而对于每个BU来说,他们知道的只是这个客户的片面属性,在开展营销活动时,只是针对一个手机号或一个邮箱做营销,但背后不能识别出来一个自然人、一个公司。

为打破数据孤岛,创造更大的数据价值,阿里使用OneData作为核心方法论。

OneData体系包含:

1.OneModel:数据资产构建与管理

2.OneID:实体打通和画像

3.OneService:逻辑化服务

9a7b32ea29e4bb9bf9a5bd16c5548719.png

OneID基于超强ID识别技术链接数据,高效生产标签;业务驱动技术价值化,消除数据孤岛,提升数据质量,提升数据价值。

而ID的打通,必须有ID-ID之间的两两映射打通关系,通过ID映射关系表,才能将多种ID之间的关联打通,完全孤立的两种ID是无法打通的。

打通整个ID体系,看似简单,实则计算复杂,计算量非常大。假如某种对象有数亿个个体,每个个体又有数十种不同的ID标识,任意两种ID之间都有可能打通关系,想要完成这类对象的所有个体ID打通需要数亿次计算,一般的机器甚至大数据集群都无法完成。

大数据领域中的ID-Mapping技术就是用机器学习算法类来取代野蛮计算,解决对象数据打通的问题。基于输入的ID关系对,利用机器学习算法做稳定性和收敛性计算,输出关系稳定的ID关系对,并生成一个UID作为唯一识别该对象的标识码。

2、网易ID-Mapping

网易产品线有网易云音乐、网易邮箱、网易新闻、网易严选等,不同应用上有不同的ID,如yanxuanid、oaid、musicid、phone、email、idfa、imei等。

要想标识唯一ID,网易采用的思路及方案为:

结合各种账户、各种设备型号之间的关系对,以及设备使用规律等用户数据,采用规则规律、数据挖掘算法(连通图划分+社区发现)的方法,判别账户是否属于同一个人。

767be151a188b884ea02d5d8ab1d0c03.png

ID-Mapping过程中,常遇到的问题及对应方案如下:

问题一:用户有多个设备信息。

解决方案:定义相关的阈值进行关联。社区发现当前应用于营销场景,暂未用于风控或用户运营场景,因为这种方式会把一些异常的账号关联在一起,且会存在仅登录使用过一次的设备信息。

问题二:设备过期,一般是2年半左右时间。

解决方案:设定衰减系数,对单用户多设备加大衰减力度。

备注:通常一人多设备对应的场景有,借用朋友设备、设备脏数据、刷号等。

3、58 ID-Mapping

58业务场景丰富,其产品线包含58同城、赶集、安居客、中华英才网、转转、58到家等。

在这种多用户、多业务线、多子公司的情况下,用户数据种类繁杂,构建画像的数据来自于日志、简历库、帖子库、用户信息库、商家库、认证信息库等数据源,其中仅日志就涉及到58、赶集、安居客等各个子产品的PC/M/APP日志。

如何将众多数据源串联起来是构建用户画像面临的第一个问题,如下是58构建的ID-Mapping模型图。

32ecf778239f162b3f754d35cbf32b9f.png

从图中可以看出,不同业务线所拥有的ID标识不一:

58同城:wuser、wbdid、wimei

58赶集:guser、gbdid、gapud、gimei

安居客:kimei

其中可以通过telep、bidua、appua、imei、idfa关联起来,由此建立不同ID之间的关联映射关系,就是ID-Mapping的过程。

4、美团ID-Mapping

美团与大众点评进行了合并,那同一个用户在两个APP上有不同的身份标识,美团要怎样进行唯一标识呢?

我们来看看美团和大众点评的账号体系。美团采用手机号、微信、微博、美团账号的登录方式;大众点评采用的手机号、微信、QQ、微博的登录方式;其交集为手机号、微信、微博。最终,对于注册用户账户体系,美团采用了手机号作为用户的唯一标识。

25c6a75e703606c891342f428eaca246.png

5、总结

从上述案例可看出,ID-Mapping有三种常见方法:

1.基于账号体系

企业中最常用的是基于账号体系来做ID的打通,用户注册时,给到用户一个uid,以uid来强关联所有注册用户的信息。

2.基于设备

那对于未注册用户可以通过终端设备ID精准识别,包含Android/iOS两类主流终端的识别。通过SDK将各种ID采集上报,后台利用的ID关系库和校准算法,实时生成/找回终端唯一ID并下发。

3.基于账号&设备

结合各种账户、各种设备型号之间的关系对,以及设备使用规律等用户数据,采用规则规律、数据挖掘算法的方法,输出关系稳定的ID关系对,并生成一个UID作为唯一识别该对象的标识码。

6、实践

1.梳理业务及数据现状

由于公司包含租住、生活服务等多条业务线,不同业务的用户标识不一;数据来源各不相同,数据散落在各业务表中,ID标识包含phone、邮箱、神策ID、cuid、IMEI、idfa等。

2.明确建设目标

ID-Mapping体系的建立,旨在打破数据孤岛,将更多用户的数据关联起来,形成全域用户画像,帮助营销人员进行精细化营销。

3.制定项目计划

第一阶段:基于用户账号体系,用phone关联注册用户的ID,维护一个ID映射库,统计注册用户线上线下行为数据。

44ff7161e7daf508d1891db979914d0b.png

第二阶段:基于设备,用device ID关联未注册用户的ID,统计未注册用户的行为数据。

第三阶段:基于账号&设备,采用数据挖掘算法做ID映射。

4.按计划进行

接下来要做的就是按计划开展项目。这个过程中,注意要点在于,基于公司的数据现状出发,一步步实施;梳理清楚底层数据表中的ID标识;理清楚各ID之间的关系图,便于做映射。

说在最后:

整个ID体系建设完成后,接下来会开始标签设计的篇章~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
课程简介:  本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。 本课程项目涵盖数据采集与预处理、数据仓库体系建设用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。  拒绝demo,拒绝宏观抽象,拒绝只讲不练,本课程高度揉和理论与实战,并兼顾各层次的学员,真正从0开始,循序渐进,每一个步骤每一个环节,都会带领学员从需求分析开始,到逻辑设计,最后落实到每一行代码,所有流程都采用企业级解决方案,并手把手带领学员一一实现,拒绝复制粘贴,拒绝demo化的实现。并且会穿插大量的原创图解,来帮助学员理解复杂逻辑,掌握关键流程,熟悉核心架构。   跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建......逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。  由于本课程不光讲解项目的实现,还会在实现过程反复揉和各种技术细节,各种设计思想,各种最佳实践思维,学完本项目并勤于实践的话,学员的收获将远远超越一个项目的具体实现,更能对大型数据系统开发产生深刻体悟,对很多技术的应用将感觉豁然开朗,并带来融会贯通能力的巨大飞跃。当然,最直接的收获是,学完本课程,你将很容易就拿到大数据数仓建设用户画像建设等岗位的OFFER课程模块: 1. 数据采集:涉及到埋点日志flume采集系统,sqoop业务数据抽取系统等; 2. 数据预处理:涉及到各类字典数据构建,复杂结构数据清洗解析,数据集成,数据修正,以及多渠道数据的用户身份标识打通:ID-MAPPING等;3. 数据仓库:涉及到hive数仓基础设施搭建,数仓分层体系设计,数仓分析主题设计,多维分析实现,ETL任务脚本开发,ETL任务调度,数据生命周期管理等;4. 数据治理:涉及数据资产查询管理,数据质量监控管理,atlas元数据管理系统,atlas数据血缘管理等;5. 用户画像系统:涉及画像标签体系设计,标签体系层级关系设计,各类标签计算实现,兴趣类标签的衰减合并,模型标签的机器学习算法应用及特征提取、模型训练等;6. OLAP即席分析平台:涉及OLAP平台的整体架构设计,技术选型,底层存储实现,Presto查询引擎搭建,数据服务接口开发等;7. 数据服务:涉及数据服务的整体设计理念,架构搭建,各类数据访问需求的restapi开发等;课程所涉及的技术: 整个项目课程,将涉及到一个大型数据系统所用到的几乎所有主要技术,具体来说,包含但不限于如下技术组件:l Hadoopl Hivel HBasel SparkCore /SparkSQL/ Spark GRAPHX / Spark Mllibl Sqoopl Azkabanl Flumel lasal Kafkal Zookeeperl Solrl Prestop

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值