Spark数仓项目-用户日志处理
文章平均质量分 92
本项目基于数仓模型,使用大数据生态组件,构建完整的模拟用户大数据日志建模和分析处理。
大数据程序终结者
我先说好,我发的需求案例都是经过我测试的,具有普遍代表性的案例,如果有问题请检查环境配置。
展开
-
【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive
本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天时间分区中的用户数据。mysql表建表语句:hive注意字段时间戳,我们将从以上MySQL向Hive导入数据。编写datax的json脚本"job" : {执行导入操作在mysql中添加测试数据 导入mysql中7-11的数据到hive下7-11分区在hive下创建分区运行dataX脚本。原创 2023-07-14 09:49:46 · 1986 阅读 · 0 评论 -
【Spark数仓项目】需求七:漏斗模型分析
将数组中元素按照:拼接成一个字符串 [1001_display:1002_addCart:1003_order:1004_pay]将一个设备的多个行为存储到数组中,并且排序 [1001_display,1002_addCart,1003_order,1004_pay]这段查询会将同一个设备的事件按照时间顺序拼接成一个字符串,并使用冒号作为分隔符,用于后续的分析和处理。2.然后在外层通过正则表达式匹配拼接后的字符串中的事件序列,然后根据不同的事件序列返回相应的步骤数。– 经过每个步骤的人数。原创 2023-07-07 00:09:40 · 657 阅读 · 2 评论 -
【Spark数仓项目】需求六:构建设备会话维表
session_start_time(会话开始时间): 一个设备在一次会话中最小的时间戳session_end_time (会话结束时间):一个设备在一次会话中最大的时间戳page_count (会话访问页数): 访问页面事件中获取properties里面url页面,然后去重的结果enter_page (入口页): 一次会话中第一次产生访问页面事件对应的url,就是入口页leave_page (退出页): 一次会话中最后一次产生访问页面事件对应的url,就是退出页。原创 2023-07-04 20:41:40 · 306 阅读 · 0 评论 -
【Spark数仓项目】需求五:用户活跃范围开发-拉链表
通过建立用户的活跃时间段表,可以将用户的活跃时间段信息预先计算和存储起来,减少从dwd层重复查询的次数。这样可以在统计用户活跃需求时,直接从活跃时间段表中获取数据,提高查询的效率和性能,方便后续的数据分析和业务应用。原创 2023-07-04 07:39:31 · 583 阅读 · 1 评论 -
【Spark数仓项目】需求四:Dolphinscheduler进行日志文件调度
项目中所需的表,工具类,可以在前文需求中找到。原创 2023-06-30 12:16:39 · 1125 阅读 · 0 评论 -
【Spark数仓项目】需求三:地图位置解析进一步优化
Q1:为什么要这么做优化?即此文的目的。因为全部调用高德API会造成高并发的问题,超出高德的调用规范,这也解释了为什么前面需求二我们只查找毕导用户。因此,在不给高德充钱的前提下,我们采用维表+高德api调用少数可以继续进行优化。Q2:维表中的数据是什么?为什么还有结合高德api?维表中的数据是全国的地理位置hash解析,是公开的,我们提前准备好的数据库资源。但是ods层实际用户坐标的地理hash可能有不在维表中的情况,因此有了本需求,即结合高德api完善维表中的信息。Spark3.2.0。原创 2023-06-30 11:05:50 · 271 阅读 · 0 评论 -
【Spark数仓项目】需求一:项目用户数据生成-ODS层导入-DWD层初步构建
本项目使用一台虚拟机,主机名Hadoop10,CentOS7系统。虚拟机服务器jdk选用1.8,包括完整生态的hadoop spark;本地主机为win11,scala2.12.17,在idea集成环境中编写。原创 2023-06-26 20:46:47 · 1074 阅读 · 0 评论 -
【Spark数仓项目】需求二:DWD层会话分隔构建-高德地图API解析经纬度位置
本需求运行在Hadoop10单机环境:Windows11 开发环境:Chatgpt:将用户行为数据的会话分隔成细粒度的时间片可以带来以下好处:分析用户行为模式:细粒度的时间片可以更好地了解用户在不同时间段内的行为模式和趋势。通过分析用户在不同时间片内的行为,可以发现用户活动的高峰期、低谷期和变化趋势,为业务决策提供更准确的数据支持。个性化推荐和营销:通过了解用户在不同时间片内的兴趣和需求变化,可以为用户提供更加个性化的推荐内容和营销策略。例如,根据用户在特定时间片内的购买习惯推荐相似商品,或者在用户活跃时原创 2023-06-27 20:44:00 · 239 阅读 · 0 评论