1、基于flink的 电商用户行为数据分析
内容主要有:
- 批处理和流处理
- 电商用户行为分析
- 数据源解析
- 项目模块划分
1.1、批处理和流处理
批处理:
批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。可以认为,处理的是用一个固定时间间隔分组的数据点集合。批处理模式中使用的数据集通常符合下列特征:
- 有界:批处理数据集代表数据的有限集合
- 持久:数据通常始终存储在某种类型的持久存储位置中
- 大量:批处理操作通常是处理极为海量数据集的唯一方法
流处理:
流处理可以对随时进入系统的数据进行计算。流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作。流处理中的数据集是“无边界”的,这就产生了几个重要的影响:
- 可以处理几乎无限量的数据,但同一时间只能处理一条数据,不同记录间只维持最少量的状态
- 处理工作是基于事件的,除非明确停止否则没有“尽头”
- 处理结果立刻可用,并会随着新数据的抵达继续更新。
2、电商用户行为分析
2.1、电商用户行为分析
-
热门统计
点击、浏览
热门商品、近期热门商品、分类热门商品,流量统计 -
偏好统计
收藏、喜欢、评分、打标签
用户画像,推荐列表(结合特征工程和机器学习算法) -
风险控制
下订单、支付、登录
订单失效监控,恶意登录(短时间内频繁登录失败)监控
2.2、项目模块设计
分为:热门统计、风险控制
热门统计 |
---|