构建用户画像的详细流程

   ​首先,数据从点击流日志、用户交易数据、用户信息数据中获取,经过简单清洗转换,保存到HDFS集群中,然后将这些清洗后的数据映射到Hive数据仓库,通过对Spark集成hive,让Spark集群获取hive表的元数据信息,利用SQL去分层计算操作hive表中的数据,根据模型表统计计算标签属性。分析得到应用层后,将应用层的数据映射到HBase数据库集群中,再通过Phoenix整合HBase,通过构建WEB项目实现用户画像的展现。开发测试完毕后,我们将这些不同的模型表分析的SQL,汇总封装到一个shell脚本中执行,涉及到的相关依赖是通过Azkaban进行任务调度。因为对于用户基本信息数据、用户交易数据、用户访问信息数据,由于是离线分析,可以每天定时去执行任务,按天进行区分,然后将各自所有历史数据进行了汇总而统计分析出来;而对于最终模型表的生成不需要每天去跑,它是对以往大量数据进行分析处理。可以设置好时间去跑,我们当时设置的是每三个月跑一次,这样,就形成了最终的模型宽表数据,构建出用户画像。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值