09 Spark案例实战
本系统包括离线分析系统与实时分析系统,技术栈涵盖Spark Core,Spark SQL,Spark Streaming与Spark性能调优,并在课程中穿插Spark内核原理与面试要点,能够让学员在实战中全面掌握Spark生态体系的核心技术框架。
YanLzh_MAlone
这个作者很懒,什么都没留下…
展开
-
0905-广告点击量实时统计
0905-广告点击量实时统计需求七:实时维护黑名单7.1 需求概述7.2 简要运行流程7.3 具体运行流程7.4 代码实现7.4.1 加载并转换用户数据集7.4.2 过滤掉已经上黑名单的用户7.4.3 对实时数据进行统计,更新点击次数表7.4.4 添加异常用户需求八:各省各城市广告点击量实时统计8.1 需求概述8.2 简要运行流程8.3 具体运行流程8.4 代码实现8.4.1 转换key值8.4....原创 2019-12-28 19:32:53 · 1625 阅读 · 0 评论 -
0904-各区域Top3商品统计
0904-各区域Top3商品统计需求六: 各区域Top3商品统计6.1 需求概述5.2 简要运行流程5.3 具体运行流程5.4 代码实现5.4.1 获取数据5.4.2 Join得到基本表信息5.4.3 获取每个区域,每个商品的点击总和,并将城市信息综合5.4.4 加入其它字段5.4.5 获取top35.4.6 封装case class5.4.7 入库小结需求六: 各区域Top3商品统计6.1 ...原创 2019-12-26 11:37:17 · 397 阅读 · 0 评论 -
0903-页面单跳转化率统计
0903-页面单跳转化率统计需求五:页面单跳转化率统计5.1 需求概述5.2 简要运行流程5.3 具体运行流程5.4 代码实现5.4.1 获取用户行为数据5.4.2 获取目标切片5.4.3 pageFlowRDD: RDD[(flag, 1)]5.4.4 计算每个页面切片的总个数5.4.5 获取起始页面总个数5.4.6 根据所有的切片个数信息,计算实际的页面切片转化率大小5.4.7 封装case ...原创 2019-12-24 21:43:40 · 501 阅读 · 0 评论 -
0902-用户访问会话统计
0902-用户访问会话统计需求一: 各个范围会话步长, 访问时长占比统计1.1 需求概述1.2 简要运行流程1.3 具体运行流程1.4 代码实现1.4.1 按照日期范围获取数据1.4.2 转换为K-V格式,SessionID作为key1.4.3 按照SessionID进行聚合1.4.4 分别计算当前Session所有访问行为,访问时长和访问步长1.4.5 获取用户表并转为K-V格式1.4.6 用户...原创 2019-12-23 21:18:16 · 1305 阅读 · 0 评论 -
0901-项目需求概述
0901-项目需求概述第一章 离线流程第二章 实时流程第三章 系统架构第四章 原始数据结构第一章 离线流程第二章 实时流程第三章 系统架构第四章 原始数据结构...原创 2019-12-23 12:06:34 · 245 阅读 · 0 评论