大数据Kafka+Spark实时处理数据的解决方案

最新推荐文章于 2024-01-11 06:00:00 发布

「已注销」

最新推荐文章于 2024-01-11 06:00:00 发布

阅读量708

点赞数

分类专栏：大数据与人工智能文章标签：大数据 spark kafka

转载注明出处

本文链接：https://blog.csdn.net/qq_15973399/article/details/108447853

版权

说明

本项目利用Kafka和Spark实现一个实时处理解决方案，如下：
在这里插入图片描述
工作过程（以文本相似度查询匹配为例）：

WEB接口向Kafka名为“match”的topic发送参数。
Spark Streaming 读取topic，加载文本，进行相似度实时计算（需要一个文本是否变化的标志，防止频繁加载）
Spark将处理后的数据发送给Kafka或者存入数据库中
接口端查询即可。

环境准备

安装Hadoop，Spark
安装Zookeeper和Kafka

Scala

依赖

    <dependencies>
        <!-- spark-streaming -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.12</artifactId>
            <version>3.0.0</version>
        </dependency>
        <!-- spark-streaming-kafka -->
        <dependency>
            <groupId

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据Kafka+Spark实时处理数据的解决方案

说明本项目利用Kafka和Spark实现一个实时处理解决方案，如下：工作过程（以文本相似度查询匹配为例）：WEB接口向Kafka名为“match”的topic发送参数。Spark Streaming 读取topic，加载文本，进行相似度实时计算（需要一个文本是否变化的标志，防止频繁加载）Spark将处理后的数据发送给Kafka或者存入数据库中接口端查询即可。环境准备安装Hadoop，Spark安装Zookeeper和KafkaPython Spark的使用安装 PySpark
复制链接

扫一扫