![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark电商平台分析项目实战
spark项目实践一 电商分析
涵sir
A madman seeks knowledge and pleasure
展开
-
spark企业级电商分析平台项目实践(九)需求六分析与实现
前言项目的第三个模块——areaStat模块 第六个需求的实现:区域热门商品点击品类统计top3一、需求分析按照点击次数,统计各区域的top3热门商品品类二、步骤三、实现1.从用户行为信息表和城市信息表中提取数据join为一个基础数据表首先从user_visit_action获取RDD[(cityId, productId)]val sql ="select city_id,click_product_id from user_visit_action where date >=原创 2020-10-26 14:30:01 · 216 阅读 · 0 评论 -
spark企业级电商分析平台项目实践(八)需求五分析与实现
前言项目的第二个模块——pageStat模块 第五个需求的实现:页面单跳转化率的统计一、需求分析需求页面单跳转化率指定页面跳转流二、步骤三、实现1.获得目标页面切片// 获取配置文件中的pageFlow// pageFlowStr: String "1,2,3,4,5,6,7"val pageFlowStr = ParamUtils.getParam(taskParam, Constants.PARAM_TARGET_PAGE_FLOW)// pageFlowArray原创 2020-10-26 09:21:00 · 202 阅读 · 0 评论 -
spark企业级电商分析平台项目实践(七)需求四分析与实现
前言需求四:获取top10热门品类的活跃session一、需求分析上一章节中,获取到了top10热门商品,本章节,基于热门商品,分别获取到Top10热门品类中的Top10活跃Session二、思路及步骤三、实现声明需求四的主函数def top10ActiveSession(sparkSession: SparkSession, taskUUID: String, top10Category:原创 2020-10-13 22:22:07 · 249 阅读 · 0 评论 -
spark企业级电商分析平台项目实践(六)需求三分析与实现
前言需求三:top10热门商品类统计一、需求分析在符合条件的用户行为数据中,获取点击、下单和支付数量排名前10的品类。在Top10的排序中,按照点击数量、下单数量、支付数量的次序进行排序,即优先考虑点击数量。二、思路及步骤三、实现首先获得符合条件的session的所有action信息,通过一个join,将符合条件的session及其action筛选出来// sessionId2actionRDD: RDD[(sessionId, action)] 未经过滤的action// sessi原创 2020-10-13 20:47:23 · 224 阅读 · 0 评论 -
spark企业级电商分析平台项目实践(五)需求二分析与实现
前言需求二:按比例随机抽取session一、需求上一章节中,完成了各范围session占比的统计,得到了各步长、各时长count的累加器,并计算得到了其所占比例。本章节的需求为:按照天数以及每天中各个小时的session数量在总session数中的占比,来比例随机抽取session。二、思路及步骤第一步:第一步,获得每天的、每小时的 session数量第二步,获得每小时随机抽取的session的index第三步,按照List[index]完成session的按比例随机抽取三、实现1原创 2020-10-12 21:08:25 · 237 阅读 · 0 评论 -
spark企业级电商分析平台项目实践(四)需求一分析与实现
前言需求一:各范围session步长、时长所占比例统计的分析与实现一、需求在上一章节,根据过滤条件,已经得到了(sessionId, filteredRDD),并且更新了累加器中的三个field:1.session_count 2.time_period 3.step_period,根据累加器中数据,计算session各步长、各时长所占比例就可以了。二、实现声明//需求一:各范围session占比统计getSessionRatio(sparkSession, taskUUID, sess原创 2020-10-09 08:43:35 · 206 阅读 · 0 评论 -
spark企业级电商分析平台项目实践(三)sessionStat模块解析
前言本章节对项目的sessionStat模块进行解析,该模块负责用户访问session的统计,代码实现前四个需求:session访问步长/访问时长占比统计按比例随机抽取sessiontop10热门商品类统计热门品类活跃session统计一、...原创 2020-09-30 15:43:55 · 332 阅读 · 0 评论 -
spark企业级电商分析平台项目实践(二)程序mock和commons模块解析
前言对项目代码的架构进行解析代码总共分为六个模块:mock模块 生成模拟数据commons模块 包含了一些工具类、线程池、常量接口、数据模型等sessionStat模块 用户访问session的统计 前四个需求的实现pageStat模块 页面单跳转化率的统计 第五个需求的实现areaStat模块 区域热门商品的统计 第六个需求的实现adverRealStat模块 广告实时流量统计 后四个需求的实现本章进行mock和commons模块的解析注:以下代码是简略参考,不能直接CTRL-C原创 2020-09-27 16:56:33 · 345 阅读 · 0 评论 -
spark企业级电商分析平台项目实践(一)项目介绍和需求分析
前言这个专栏的系列文章,是一个电商平台分析项目实践过程中的记录和总结。基于spark2.4.6和scala2.11.82020年9月24日 开始原创 2020-09-23 21:16:38 · 569 阅读 · 0 评论