Spark Streaming项目实战之实时的分析处理用户对广告点击的行为数据

最新推荐文章于 2022-06-27 09:36:39 发布

布莱恩特888

最新推荐文章于 2022-06-27 09:36:39 发布

阅读量2.2k

点赞数 4

分类专栏： Spark 文章标签： spark streaming 大数据

本文链接：https://blog.csdn.net/qq_41818801/article/details/106289763

版权

使用Spark Streaming实时的分析处理用户对广告点击的行为数据

1. 准备数据
2. 需求一：每天每地区热门广告Top3
- 2.1 需求分析
- 2.2 代码实现
3. 需求二：最近一小时广告点击量实时统计
- 3.1 需求分析
- 3.2 代码实现

1. 准备数据

数据集：Spark Streaming项目实战的数据
本实战项目实时的分析处理用户对广告点击的行为数据。

1.1 数据生成方式

使用代码的方式持续的生成数据，然后写入到kafka中，然后从kafka消费数据，并对数据根据需求进行分析。

1.2 数据格式

模拟出来的数据格式如下：是以逗号"，"来进行分割的。
在这里插入图片描述

1.3 模拟数据生成及从Kafka中读取数据

1）步骤1：开启集群
启动Zookeeper集群和Kafka集群（先启动Zookeeper，在启动Kafka）

2）步骤2：创建主题（Topic）

（1）查看主题

[atguigu@hadoop102 kafka-2.4.1]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --list

（2）创建主题

[atguigu@hadoop102 kafka-2.4.1]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --create --topic my-ads-bak --partitions 2 --replication-factor 2

3）步骤3：创建循环不断的数据到指定的Kafka中的Topic

（1）创建Maven项目，项目名称spark_realtime0105
在这里插入图片描述
（2）添加依赖，添加框架（Scala语言）支持，创建scala目录

<dependency>
  <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.1.1</version>
</dependency>
<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>5.1.27</version>
</dependency>

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.11</artifactId>
    <version>2.1.1</version>
</dependency>

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>1.2.1</version>
</dependency>

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.11</artifactId>
    <version>2.1.1</version>
</dependency>

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.11</artifactId>

最低0.47元/天解锁文章

布莱恩特888

关注

4
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Spark Streaming项目实战之实时的分析处理用户对广告点击的行为数据

使用Spark Streaming实时的分析处理用户对广告点击的行为数据1. 准备数据1.1 数据生成方式1.2 数据格式1.3 模拟数据生成及从Kafka中读取数据2. 需求一：每天每地区热门广告Top32.1 需求分析2.2 代码实现3. 需求二：最近一小时广告点击量实时统计3.1 需求分析3.2 代码实现1. 准备数据1.1 数据生成方式1.2 数据格式1.3 模拟数据生成及从Kafka中读取数据1）步骤1：开启集群启动Zookeeper集群和Kafka集群（先启动Zookeeper，在启
复制链接

扫一扫