0:计算引擎的发展史:
第一代:hadoopMapreduce
第二代:Tez、Oozie批处理
第三代:spark基于内存实时处理框架有向无环图,job内部的有向无环图
第四代:flink真正的实时系统
1:flink特点:
1.1高吞吐、低延迟
高吞吐
低延迟
1.2支持EventTime&乱序事件
flink支持了流处理和EventTime语义的窗口机制,EventTime使得计算乱序到达的事件或者可能迟到到达的事件变得更简单
1.3 flink支持高度灵活的流式窗口
1.4flink通过分布式快照的轻量方式进行容错处理,保障强一致性。如果失败的话,查找最近一个快照进行恢复。
1.5流处理和批处理共用一个引擎,批处理是特殊的流处理
1.6内存管理机制,flink在jvm中实现了自己的内存管理。应用可以超出主内存的大小限制,并且承受更少的垃圾收集的开销。
1.7flink批处理的过程中会自动的优化
1.8flink提供很多高级的api、机器学习,图分析
1.9可以广泛的集成在现有的大数据框架,运行在yarn上,可以与hdfs协同工作,从kafka中读取流数据,可以执行hadoop程序代码,可以连接多种数据存储系统。
3:flink电商指标分析
3.1 频道分析:频道浏览pv、uv、热门频道top10、频道成交分析......
3.2 产品分析:产品地区分布分析、产品商家分析、产品浏览top10、产品类别浏览
3.3用户分析:用户浏览器分析、用户网络分析、用户年龄群分析、用户地区分布
3.4营销分析:代金卷使用分析、红包使用分析、红包使用地区分析、红包使用商家分析
3.5购物车分析:购物车用户地区分析、购物用户年龄分分布分析
3.6订单分析:订单成交率....