大数据技术之Flink电商用户行为分析系统（用户画像）

最新推荐文章于 2024-10-14 19:34:22 发布

IronmanJay

最新推荐文章于 2024-10-14 19:34:22 发布

阅读量3.9k

点赞数 4

分类专栏： Flink 大数据文章标签：大数据 hadoop flink spark 电子商务

本文链接：https://blog.csdn.net/IronmanJay/article/details/106891948

版权

18 篇文章 15 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

一、主流的批处理和流处理框架

在这里插入图片描述

Hadoop中的MapReduce只能做离线计算，也就是批处理，并且基于磁盘计算，属于IO密集型，Shuffle阶段需要大量算力，并且只有map和reduce
Spark作为一个微批处理的大数据计算框架，主要作用就是类似MapReduce，Spark Streaming可以实现传统意义上的流式计算，但是正如开头所说，属于微批处理，不是完全的实时，但是Spark基于内存运算，计算能力非常强大
Storm是真正的流式处理，来一条数据处理一条，但是对于超大流量Storm的处理并不太好
最近几年兴起的Flink，作为和Spark一样的计算框架，利用Hadoop作为数据存储，利用Flink进行计算，Flink是真正的满足实时性要求的计算框架，可以实现毫秒级的响应，面向真正的流数据，以一行一行为计算单位，速度很快

批处理主要操作大容量静态数据集，并在计算过程完成后返回结果。可以认为处理的是一个固定时间间隔分组的数据点集合。批处理模式中使用的数据集通常符合下列特征：

流处理可以对随时进入系统的数据进行计算。流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作。流处理中的数据集是“无边界”的，这就产生了几个重要的影响：

Windows10、Centos7(三集群,三台分别都是6G，8核)、Idea2019.3、Maven3.3.9、Flink1.7.2、kafka2.11-2.1.0、sacla2.1.18、jdk1.8

热门统计
利用用户的点击浏览行为，进行流量统计、近期热门商品统计等。
偏好统计
利用用户的偏好行为，比如收藏、喜欢、评分等，进行用户画像分析，给出个性化的商品推荐列表。
风险控制
利用用户的常规业务行为，比如登录、下单、支付等，分析数据，对异常情况进行报警提示。
说明
本项目限于数据，只实现热门统计和风险控制中的部分内容，将包括以下四大模块：实时热门商品统计、实时流量统计、恶意登录监控和订单支付失效监控。并由于对实时性要求较高，用flink作为数据处理的框架。综合运用flink的各种API，基于EventTime去处理基本的业务需求，并且使用底层的processFunction，基于状态编程和CEP去处理更加复杂的情形。