构建用户画像的详细流程

最新推荐文章于 2023-05-03 04:57:51 发布

ischangle

最新推荐文章于 2023-05-03 04:57:51 发布

阅读量3.5k

点赞数

本文链接：https://blog.csdn.net/weixin_43225081/article/details/90346313

版权

   首先，数据从点击流日志、用户交易数据、用户信息数据中获取，经过简单清洗转换，保存到HDFS集群中，然后将这些清洗后的数据映射到Hive数据仓库，通过对Spark集成hive，让Spark集群获取hive表的元数据信息，利用SQL去分层计算操作hive表中的数据，根据模型表统计计算标签属性。分析得到应用层后，将应用层的数据映射到HBase数据库集群中，再通过Phoenix整合HBase，通过构建WEB项目实现用户画像的展现。开发测试完毕后，我们将这些不同的模型表分析的SQL，汇总封装到一个shell脚本中执行，涉及到的相关依赖是通过Azkaban进行任务调度。因为对于用户基本信息数据、用户交易数据、用户访问信息数据，由于是离线分析，可以每天定时去执行任务，按天进行区分，然后将各自所有历史数据进行了汇总而统计分析出来；而对于最终模型表的生成不需要每天去跑，它是对以往大量数据进行分析处理。可以设置好时间去跑，我们当时设置的是每三个月跑一次，这样，就形成了最终的模型宽表数据，构建出用户画像。