55.Spark大型电商项目-用户访问session分析-top10活跃session之本地测试以及阶段总结。

最新推荐文章于 2022-07-04 20:21:43 发布

zerone-f

最新推荐文章于 2022-07-04 20:21:43 发布

阅读量398

点赞数

分类专栏：大数据 spark 电商用户行为分析文章标签： Spark大型电商项目

本文链接：https://blog.csdn.net/someby/article/details/88783220

版权

大数据同时被 3 个专栏收录

196 篇文章 4 订阅

订阅专栏

spark

175 篇文章 3 订阅

订阅专栏

电商用户行为分析

141 篇文章 4 订阅

订阅专栏

本地测试

UserVisitSessionAnalyzeSpark.jaba

总结

本篇文章记录用户访问session分析-top10活跃session之本地测试以及阶段总结。

本地测试

UserVisitSessionAnalyzeSpark.jaba

为防止sessionCount为null而报错


                        for(String sessionCount : top10Sessions) {
                            if(sessionCount != null){
                                String sessionid = sessionCount.split(",")[0];
                                long count = Long.valueOf(sessionCount.split(",")[1]);

                                // 将top10 session插入MySQL表
                                Top10Session top10Session = new Top10Session();
                                top10Session.setTaskid(taskid);
                                top10Session.setCategoryid(categoryid);
                                top10Session.setSessionid(sessionid);
                                top10Session.setClickCount(count);

                                ITop10SessionDAO top10SessionDAO = DAOFactory.getTop10SessionDAO();
                                top10SessionDAO.insert(top10Session);

                                // 放入list
                                list.add(new Tuple2<String, String>(sessionid, sessionid));
                            }
                        }

总结

目前为止，做了些什么？

1、公共组件
1.1 配置管理组件
1.2 JDBC辅助组件
1.3 工具类
1.4 模拟数据生成程序
1.5 单元测试
1.6 domain、dao

2、第一个模块：用户访问session分析模块
2.0 基础：session粒度聚合、按筛选条件进行过滤
2.1 session聚合统计：统计出访问时长和访问步长，各个区间范围的session数量，占总session数量的比例
2.2 session随机抽取：按时间比例，随机抽取出100个session
2.3 top10热门品类：获取通过筛选条件的session，点击、下单和支付次数最多的10个品类
2.4 top10活跃session：获取top10热门品类中，每个品类点击次数最多的10个session

3、技术点和知识点
3.1 正规的大型大数据项目的架构（公共组件的封装、包的划分、代码的规范）
3.2 复杂的大数据分析需求（纯spark作业代码，1500行+）
3.3 Spark Core大部分算子在实际项目中的综合应用实战：map、reduce、count、group
3.4 高级技术点：自定义Accumulator、按时间比例随机抽取算法、二次排序、分组取TopN算法
3.5 标准和正规的大数据项目开发流程：数据调研、需求分析、技术方案设计、数据库设计、编码实现、单元测试、本地测试

4、完成了第一个业务模块：用户访问session分析，开发

5、走完剩下的流程：性能调优、生产环境测试

6、接下来要做什么？：
6.1 性能调优：按照本人开发过的大量的单个spark作业，处理10亿到100亿级别数据的经验，要针对我们写好的spark作业程序，实施十几个到二十个左右的复杂性调优技术；性能调优相关的原理讲解；性能调优技术的实施；实际经验中应用性能调优技术的经验总结；掌握一整套复杂的Spark企业级性能调优解决方案；而不只是简单的一些性能调优技巧（网上一些博客、其他一些视频、其他一些书）
6.2 数据倾斜解决方案：针对写好的spark作业，实施一整套数据倾斜解决方案：实际经验中积累的数据倾斜现象的表现，以及处理后的效果总结
6.3 troubleshooting：针对写好的spark作业，讲解实际经验中遇到的各种线上报错问题，以及解决方案
6.4 生产环境测试：Hive表