第104讲: Spark Streaming电商广告点击综合案例需求分析和技术架构

有兴趣想学习国内整套Spark+Spark Streaming+Machine learning顶级课程的,可加我qq  471186150。共享视频,性价比超高!

本讲内容:对京东等电商网站对广告点击行为进行分析,具体我们有哪些需求点,我们初步的技术架构是什么样的。

1:广告点击系统实时分析:
广告来自于网站或者移动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过JavaScript、Ajax或者Socket往后台发送点击的日志数据,在这里我们是要基于Spark Streaming做实时在线统计,那么数据就需要放进消息系统(Kafka)中,为什么不是放进文件中?因为系统一旦运行起来,它可能要运行一年,中间不能出任何问题,所以一般是放在消息组件中解耦合的,二是kafka肯定是更稳定,还可以随时查过去一小时,7天,一个月,甚至一百天,只要你磁盘足够大。我们的Spark Streaming应用程序就会去Kafka中Pull数据过来进行计算和消费,并把计算后的数据放入到持久化系统中(MySQL);
广告点击系统实时分析的意义:因为可以在线实时的看见广告的投放效果,就为广告的更加规模的投入和调整打下的坚实的基础,从而为公司带来最大化的经济回报;

核心需求:
1,实时黑名单动态过滤出有效的用户广告点击行为;因为黑名单用户可能随时出现,所以需要动态更新;
2,在线计算广告点击流量;(方便计费或者调整广告)
3,Top3 热门广告;最挣钱的广告
4,每个广告的流量趋势;可以知道哪个时间断,用户对你这个类型的广告特别敢兴趣。另外一个时间段,有可能对另外一个广告特别感兴趣。
5,广告点击用户的区域分布分析;可以看到用户的各省各城市分析。
6,最近一分钟的广告点击量;‘
7,整个广告点击Spark Streaming处理程序7*24小时的运行;


数据格式:
点击的时间、用户、广告、城市地点等


技术细节,暂时列出下面几条:
在线计算用户点击的次数分析、屏蔽IP等,实现黑名单过滤,你一天对我的广告点击50次,肯定不正常。
使用updateStateByKey或者mapWithState进行不同地区广告点击排名的计算;
Spark Streaming+Spark SQL+Spark Core等综合分析数据;
使用Window类型的操作;
高可用和性能调优;
流量趋势 一般会结合DB等;最好的流量趋势从机器学习去用,因为不仅可以算过去,也可以预测未来。


以上是本次项目重点技术和功能设计。

上百节课详细解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程介绍: 解一个真实的、复杂的大型企业级大数据项目,是Spark的大型项目实战课程。 通过本套课程的学习,可以积累大量Spark项目经验,迈入Spark高级开发行列。 课程特色: 1、项目中全面覆盖了Spark Core、Spark SQL和Spark Streaming这三个技术框架几乎全部的初级和高级的技术点和知识点, 让学员学以致用,通过一套课程,即掌握如何将Spark所有的技术点和知识点应用在真实的项目中,来实现业务需求! 2、项目中的4个功能横块,全郃是实际企业项目中提取出来的,并进行技术整合和改良过的功能模块.全都是企业级的复杂和真实的需求,业务模块非常之复杂,绝对不是市面上的Dem级别的大数据项目能够想比拟的,学习过后,真正帮助学员增加实际 企业级项目的实战经验。 3、项目中通过实际的功能模块和业务场景,以及师曾经开发过的处理十亿、甚至百亿以上数据级别的SparK作业的经验积累,贯穿解了大量的高级复杂的性能调优技术和知识、troubleshooting解决线上报错和故障的经验、高端的全方位数据倾斜处理和解决方案.真正帮助学员掌握高精尖的Spark技术! 4、项目中采用完全还原企业大数据项目开发场景的方式来解,每一个业务模块的解都包括了需求分析、方案设计、数据设计、编码实现、功能测试、性能调优等环节,真实还原企业级大数据项目开发场景。 模块简介: 1、用户访问session分析,该模块主要是对用户访问session进行统计分析.包括session的聚合指标计算、 按时间比例随机抽取session、获取每天点击、下单和购买排名前10的品类、并获取top10品类的点击量排名前10的session.该模块可以让产品经理、数据分析师以及企业管理层形象地看到各种条件下的具体用户行为以及统计指标.从而对公司的产品设计以及业务发展战略做出调整.主要使用Spark Core实现. 2、页面单跳转化率统计,该模块主要是计算关键页面之间的单步跳转转化率,涉及到页面切片算法以及页面流匹配算法.该模块可以让产品经理、数据分析师以及企业管理层看到各个关键页面之间的转化率.从而对网页布局,进行更好的优化设计。主要使用Spark Core实现. 3、热门商品离线统计,该模块主要实现每天统计出各个区域的top3热门商品.然后使用Oozie进行离线统计任务的定时调度,使用Zeppeline进行数据可视化的报表展示.该模块可以让企业管理层看到公司售卖的 商品的整体情况,从而对公司的商品相关的战略进行调螫.主要使用Spark SQL实现。 4、广告流量实时统计.该模块负责实时统计公司的广告流量.包括广告展现流量和广告点击流量,实现动态黑名单机制以及黑名单过滤,实现滑动窗口内的各城市的广告展现流立和广告点击流直的统计,实现 每个区域诲个广告点击流置实时统计,实现每个区域top3点击量的广告的统计,主要使用Spark Streaming实现.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值