spark streaming读kafka写elasticsearch

最新推荐文章于 2024-07-11 15:23:01 发布

极伪

最新推荐文章于 2024-07-11 15:23:01 发布

阅读量554

点赞数 1

文章标签： spark elasticsearch kafka 大数据

本文链接：https://blog.csdn.net/weixin_42473019/article/details/104742668

版权

spark streaming作为当下依然火热的流计算引擎，对于kafka和elasticsearch都有很好的api支持，以下是笔者在测试环境中的一个数据从kafka到es案例。

首先说一下几个重点：

kafka消费offset使用mysql保存，一开始使用了ScalikeJDBC这个包来实现对数据库的访问，后来感觉用起来不太灵活，所以就写了原生的mysql JDBC工具类，也有不少好处，比如事务控制更加灵活，不再需要导入ScalikeJDBC的那好几个jar包
数据库获取offset后，会与kafka最早的offset做一个校验，因为机器资源紧张，kafka里数据只保存一天，如果spark streaming任务因为故障或是其他原因停了一段时间，这时再开启任务从mysql获取的offset有可能会超出kafka里offset的范围，这时就要把当前的offset进行替换。如果对数据处理速度有要求的话这一步可以注释掉，等需要的时候再开启。

第一步 Maven配置

这里相关工具的版本：
scala:2.11.8
spark:2.3.4
kafka:0.10.1.0
elasticsearch:7.0.0
maven配置如下：

	<properties>
        <scala.version>2.11.8</scala.version>
        <spark.version>2.3.4</spark.version>
    </properties>

    <dependencies>
        <!-- 导入scala的依赖 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <!-- 导入spark的依赖 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch-spark-20_2.11</artifactId>
            <version>7.0.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>

最低0.47元/天解锁文章

极伪

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
spark streaming读kafka写elasticsearch

spark streaming作为当下依然火热的流计算引擎，对于kafka和elasticsearch都有很好的api支持，以下是笔者在实际生产环境中的一个案例。首先说一下几个重点：kafka消费offset使用mysql保存，一开始使用了ScalikeJDBC这个包来实现对数据库的访问，后来项目里同时有clickhouse的JDBC工具类，两者之间产生冲突，所以就自己写了原生的mysql ...
复制链接

扫一扫