session聚合总结以及后续部分

最新推荐文章于 2021-01-06 10:00:04 发布

chixushuchu

最新推荐文章于 2021-01-06 10:00:04 发布

阅读量285

点赞数

分类专栏：实战文章标签： spark session聚合分析

本文链接：https://blog.csdn.net/chixushuchu/article/details/85016236

版权

实战专栏收录该内容

61 篇文章 2 订阅

订阅专栏

1、公共组件
1.1 配置管理组件
1.2 JDBC辅助组件
1.3 工具类
1.4 模拟数据生成程序
1.5 单元测试
1.6 domain、dao

2、第一个模块：用户访问session分析模块
2.0 基础：session粒度聚合、按筛选条件进行过滤
2.1 session聚合统计：统计出访问时长和访问步长，各个区间范围的session数量，占总session数量的比例
2.2 session随机抽取：按时间比例，随机抽取出100个session
2.3 top10热门品类：获取通过筛选条件的session，点击、下单和支付次数最多的10个品类
2.4 top10活跃session：获取top10热门品类中，每个品类点击次数最多的10个session

3、技术点和知识点
3.1 正规的大型大数据项目的架构（公共组件的封装、包的划分、代码的规范）
3.2 复杂的大数据分析需求（纯spark作业代码，1500行+）
3.3 Spark Core大部分算子在实际项目中的综合应用实战：map、reduce、count、group
3.4 高级技术点：自定义Accumulator、按时间比例随机抽取算法、二次排序、分组取TopN算法
3.5 标准和正规的大数据项目开发流程：数据调研、需求分析、技术方案设计、数据库设计、编码实现、单元测试、本地测试

4、完成了第一个业务模块：用户访问session分析，开发

5、走完剩下的流程：性能调优、生产环境测试

6、接下来要做什么？：
6.1 性能调优：按照本人开发过的大量的单个spark作业，处理10亿到100亿级别数据的经验，要针对我们写好的spark作业程序，实施十几个到二十个左右的复杂性调优技术；性能调优相关的原理讲解；性能调优技术的实施；实际经验中应用性能调优技术的经验总结；掌握一整套复杂的Spark企业级性能调优解决方案；而不只是简单的一些性能调优技巧（网上一些博客、其他一些视频、其他一些书）
6.2 数据倾斜解决方案：针对写好的spark作业，实施一整套数据倾斜解决方案：实际经验中积累的数据倾斜现象的表现，以及处理后的效果总结
6.3 troubleshooting：针对写好的spark作业，讲解实际经验中遇到的各种线上报错问题，以及解决方案
6.4 生产环境测试：Hive表

chixushuchu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
session聚合总结以及后续部分

1、公共组件1.1 配置管理组件1.2 JDBC辅助组件1.3 工具类1.4 模拟数据生成程序1.5 单元测试1.6 domain、dao2、第一个模块：用户访问session分析模块2.0 基础：session粒度聚合、按筛选条件进行过滤2.1 session聚合统计：统计出访问时长和访问步长，各个区间范围的session数量，占总session数量的比例2.2 sessio...
复制链接

扫一扫