首先,数据从点击流日志、用户交易数据、用户信息数据中获取,经过简单清洗转换,保存到HDFS集群中,然后将这些清洗后的数据映射到Hive数据仓库,通过对Spark集成hive,让Spark集群获取hive表的元数据信息,利用SQL去分层计算操作hive表中的数据,根据模型表统计计算标签属性。分析得到应用层后,将应用层的数据映射到HBase数据库集群中,再通过Phoenix整合HBase,通过构建WEB项目实现用户画像的展现。开发测试完毕后,我们将这些不同的模型表分析的SQL,汇总封装到一个shell脚本中执行,涉及到的相关依赖是通过Azkaban进行任务调度。因为对于用户基本信息数据、用户交易数据、用户访问信息数据,由于是离线分析,可以每天定时去执行任务,按天进行区分,然后将各自所有历史数据进行了汇总而统计分析出来;而对于最终模型表的生成不需要每天去跑,它是对以往大量数据进行分析处理。可以设置好时间去跑,我们当时设置的是每三个月跑一次,这样,就形成了最终的模型宽表数据,构建出用户画像。
构建用户画像的详细流程
最新推荐文章于 2023-05-03 04:57:51 发布