用户画像入门简介

用户画像基础

1.1 用户画像简介

用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。

一般企业中,数据应用体系的层级划分为:基础平台建设、报表与可视化、产品运营与分析、精细化运营工具以及战略决策。

1.2 用户标签类型

统计类标签:最基础的标签,如性别、年龄、城市、活跃度等属性。

规则类标签:基于用户行为,并由数据人员和运营人员共同制定的规则产生。如定义“消费活跃”用户,规则为“近10天消费次数>2”。

机器学习挖掘类标签:通过机器学习挖掘算法产生,用于对用户的某些属性进行分类,或某些行为进行预测判断。

1.3 数据架构

在整个工程化方案中,系统依赖的基础设施包括:Spark, Hive,
HBase, Airflow, MySQL, Redis, Elasticsearch。除去基础设施外,还包括Spark
Streaming,ETL,产品端3个重要组成部分,如下图:

在这里插入图片描述
首先,Hive数据仓库ETL加工流程,是将每日的业务数据、日志数据、埋点数据等经过ETL过程,加工到数据仓库对应的ODS层、DW层、DM层。(PS:所谓埋点就是在应用中特定的流程收集一些信息,用来跟踪应用使用的状况,后续用来进一步优化产品或是提供运营的数据支撑,包括访问数(Visits),访客数(Visitor),停留时长(Time On Site),页面浏览数(Page Views)和跳出率(Bounce Rate)。)

其次,用户画像主题建模,是对数据仓库ODS层、DW层、DM层中与用户相关数据的二次建模加工。在ETL过程中将用户标签计算结果写入Hive,再根据实际应用场景,建立不同的数据库,并进一步更新到MySQL,HBase,Elasticsearch等数据库中:

Hive: 存储用户标签计算结果,用户人群计算结果,用户特征库计算结果;
MySQL: 存储标签元数据,监控相关数据,导出到业务系统的数据;
HBase: 存储线上接口实时调用类数据;
Elasticsearch: 支持海量数据的实时查询分析,用于存储用户人群计算、用户群透视分析所需的用户标签数据。

用户标签数据在Hive中加工完成后,部分标签通过Sqoop同步到MySQL数据库,提供用于BI报表展示的数据、多维透视分析数据、圈人服务数据;另一部分标签同步到HBase数据库用于产品的线上个性化推荐。

1.4 主要覆盖模块

搭建一套用户画像整体方案,需要考虑8个模块的建设,如图:
在这里插入图片描述
用户画像基础模块:需要了解、明确用户画像是什么,包含哪些模块,数据仓库架构是什么,开发流程,表结构设计,ETL设计等。

数据指标体系模块:根据业务线梳理,包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。

标签数据存储:标签相关数据可存储在Hive,MySQL,HBase,Elasticsearch等数据库中,不同存储方式适用于不同应用场景。

标签数据开发:用户画像工程化的重点模块,包含统计类、规则类、挖掘类、流式计算类标签的开发,以及人群计算功能的开发,打通画像数据和各业务系统之间的通路,提供接口服务等开发内容。

开发性能调优:标签加工、人群计算等脚本上线调度后,为了缩短调度时间,保障数据的稳定性等,需要对开发的脚本进行迭代重构、调优。

作业流程调度:标签加工、人群计算、同步数据到业务系统、数据监控预警等脚本开发完成后,需要调度工具把整套流程调度起来。

用户画像产品化:为了能让用户数据更好地服务于业务方,需要以产品化的形态应用在业务上。产品化的模块主要包括标签视图、用户标签查询、用户分群、透视分析等。

用户画像应用:画像的应用场景包括用户特征分析、短信、邮件、站内信、Push信息的精准推送,客服针对用户的不同话术、针对高价值用户的激素退货退款等VIP服务应用。

1.5 开发阶段流程

用户画像系统开发上线的流程以及各阶段的关键产出。

1.5.1 开发上线流程

用户画像建设项目流程如下:
在这里插入图片描述
第一阶段:目标解读
在建立用户画像前,首先需要明确用户画像服务于企业的对象,再根据业务方需求,明确未来产品建设目标和用户画像分析之后的预期效果。

主要服务对象:运营人员和数据分析人员。
运营人员:分析用户的特征、定位用户的行为偏好,做商品或内容的个性化推送以提高点击转化率,此时画像重点落在用户个人行为偏好上;
数据分析人员:分析用户行为特征,做好用户流失预警工作,以及根据用户消费偏好进行精准营销。

第二阶段 任务分解与需求调研
针对上阶段明确的需求侧重点,结合产品现有的业务体系和“数据字典”规约实体和标签之间的关联关系,明确分析维度。如:用户属性画像、用户行为画像、用户偏好画像、用户群体偏好画像等角度进行业务建模。

第三阶段 需求场景讨论与明确
本阶段,输出产品用户画像需求文档,在该文档中明确画像应用场景、最终开发出的标签内容与应用方式,并针对该文档与需求方反复沟通并确认无误。

第四阶段 应用场景与数据口径确认
明确需求场景和最终实现的标签维度、标签类型后,数据运营人员需要结合业务与数据仓库中已有的相关表,明确与各业务场景相关的数据口径。此阶段,需要输出产品用户画像开发文档,该文档需要明确应用场景、标签开发的模型、涉及的数据库与表、应用实施流程。

第五阶段 特征选取与模型数据落表
本阶段数据分析挖掘人员,根据前面明确的需求场景进行业务建模,写好HQL逻辑,将相应的模型逻辑写入临时表中,并抽取数据校验是否符合业务场景需求。

第六阶段 线下模型数据验收与测试
数据仓库团队人员将相关数据落表后,设置定时调度任务,定期增量更新数据。数据运营人员需要验收数仓加工的HQL逻辑是否符合需求,根据业务需求抽取表中数据查看其是否在合理范围内,如果发现问题要及时反馈给数据仓库人员调整代码逻辑和行为权重的数值。

第七阶段 线下模型发布与效果追踪
数据通过验收之后,通过Git进行版本管理,部署上线。上线后,通过持续追踪标签应用效果和业务方反馈,调整优化模型及相关权重配置。

1.5.2 各阶段关键产出

为保证程序上线的准时性和稳定性,需要规划好各阶段的任务排期和关键产出。画像体系开发分为几个主要阶段,包括前期指标体系梳理、用户标签开发、ETL调度开发、打通数据服务层、数据产品端开发、面向业务方推广应用、为业务方提供营销策略的解决方案等。

在这里插入图片描述
在这里插入图片描述

标签开发:根据业务需要和应用场景梳理标签指标体系,调研业务上定义的数据口径,确认数据来源,开发相应的标签,标签开发在整个画像项目周期中占有较大比重。

ETL调度开发:梳理要调度的各任务之间的依赖关系,开发调度脚本及调度监控告警脚本,上线调度系统。

打通服务层接口:为了让画像走出数据仓库,应用到用户身上,需要打通数据仓库和各业务系统的窗口。

画像产品化:需要产品经理与业务人员、技术开发人员一起对接业务需求点和产品功能实现形式,画产品原型,确定工作排期。Java web端开发完成后,需要数据开发人员向对应的库表中灌入数据。

开发调优:在画像的数据和产品端搭建好架构、能稳定提供服务的基础上,为了让调度任务执行起来更加高效、提供服务更加稳健,需要对标签计算脚本、调度脚本、数据同步脚本等相关计算任务进行重构优化。

面向业务方推广应用:用户画像最终的价值产出点是业务方应用画像数据进行用户分析,多渠道触达运营用户,分析ROI,提升用户活跃度或营收。该阶段,相关人员需要撰写画像的使用文档,提供业务支持。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值