1.背景
用户画像系统本质是提取业务数据,经过加工清洗转化为用户标签。
1. 在用户运营中,可以根据用户具有哪些标签进行 精细化运营;
2. 做业务风控。比如:黑名单,购买限制等等
2. 目标
2.1 大量业务数据高效清洗为用户标签数据能力
2.2 快速开发新标签的能力
2.3 快速筛选出多种维度标签能力
3. 落地方案
3.1 技术选型:php+golang+mysql+mongodb+elastisearch + kafka
3.2 系统功能模块
标签定义,标签清洗规则定义,标签人群,画像报表
3.3 数据清洗架构
ETL 三层架构: 数据抽取(E),数据清洗(T),数据加载(L) 各层之间通过kafa数据通信
数据抽取层:定时任务,查询获取后台定义的标签清洗规则,从业务库中抽取 -标准化字段规范的数据,生产到kafka队列
标准化数据规范: openid, tag_code,tag_value,biz_date,data_from,clearfunc
数据清洗层: 消费数据抽取层kafka数据,根据clearfunc 函数清理数据,得到最终的标准标签数据,生产到kafka。
数据加载: 消费数据清理层的kafka数据,保存到mongodb做持久化存储,同步到elastisearch提供标签查询功能
3.4 数据清理架构流程图,如下: