Spark对接Kafka
Kafka作为工作中最常用到的消息中间件, 以其高速处理消息出现在实时处理领域. 要使用Kafka做实时处理,那么就必须说道Spark和Kafka之间的对接
对接方式
Kafka作为Spark Executor的生产者, Spark Executor从Kafka中拉取数据并进行内容的计算.
准备
创建一个Maven, 导入需要的依赖
<dependencies>
<!--spark core-->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.1.1</version>
</dependency>
<!--spark on yarn-->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-yarn_2.12</artifactId>
<version>3.1.1</version>
<scope>provided</scope