作者简介
大卫,携程资深算法工程师,关注计算广告和推荐系统。
一、用户画像
用户画像这一概念最早源于交互设计领域,由交互设计之父Alan Cooper提出。其指出用户画像是真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。具体而言,在互联网用户分析领域,用户画像可以简单描述为用户信息标签化,即通过收集并分析用户的社会属性、生活习惯、消费偏好等各维度的数据,从而抽象出用户的全方位多视角的特征全貌,最终就是让用户画像比用户更了解自己。
用户画像作为让大数据“走出”数据仓库的典型落地应用之一,是企业精细化运营和精准营销服务的基础服务设施。本文将主要围绕画像数据流转结构设计与画像查询服务架构设计两个方面探讨用户画像在携程商旅的实践。
图片为某公司用户画像 dashboard 示例,涉及数据为脱敏数据
二、携程商旅用户画像标签体系
深刻理解 To B 和 To C 的场景差异有助于指导后期标签建模。
To B 场景下用户画像是由公司(corp id)和用户(user id)共同构成的画像,主要包括公司维度的画像,用户维度的画像。To C 场景下,一个 user id 就是一个用户,用户与用户之间大部分场景下的行为是相对独立的。To B 场景下,一个corp id 对应一个公司,一个corp id 包含多个 user id,user 与 user 之间的行为信息很多时候是可以互补的。
具体来说,主要有如下区别:
To B 场景下用户的需求更加明确。因为是商务出行,去哪,如何去,住哪里等,没有太多犹豫空间,买完即走。和C端看了又看,逛了再逛有明显的区别。
To B 场景下用户消费模式更加稳定。由于一家公司的业务不会在短期内发生剧变,所以消费模式也更加稳定。比如在解决机酒交叉推荐中的冷启动问题,corp id 下的新用户在搜索机票的时候,这个 corp id 下其他员工在同一目的地的经常预定的酒店信息是可以互补的。To B 场景下去了还会再去,并且一直稳定在一定出行范围,C端去了又去的概率显著降低。
To B 场景下用户个性化意愿减弱。由于商务出行属性以及公司差旅标准所限,用户的消费行为更多是公司政策的体现,而不是依用户个性化意愿所作出的决策。如同一公司下用户A和用户B即使在基本人口属性、个人消费能力上有所差异,但如果一同出差,用户A与用户B的差旅标准是一样的,那么他们的选择空间也就一样。
To C 场景下通常一个自然人对应多个 user id,而在 To B 场景下,通常一个user id 对应一家 corp id。为了最大化利用数据,To C 场景下一般需要用自然人模型来唯一标识 user id 。
以携程商旅用户画像(公司维度)为例,根据业务需求主要分为五大类标签,分别为基本属性、客户关系管理类标签、消费偏好类标签、风控类标签、实时类标签,下面列举一些常用标签。
1)基本属性
主要包括:公司ID、公司名称、所在城市、所属行业、注册时间、注册渠道、公司规模、公司类型等。
2)CRM类标签
生命