sparkstreaming监听hdfs目录_使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎...

最新推荐文章于 2021-11-03 13:26:09 发布

weixin_39522170

最新推荐文章于 2021-11-03 13:26:09 发布

阅读量137

点赞数

文章标签： sparkstreaming监听hdfs目录

本文链接：https://blog.csdn.net/weixin_39522170/article/details/111577170

版权

本文介绍了如何利用Apache Kafka、Spark Streaming和Cassandra构建实时数据处理平台。首先创建Kafka主题和Cassandra表，然后通过Java API在Spark Streaming中读取Kafka数据，处理DStream，将结果存入Cassandra，并讨论了Checkpoints的应用和程序的部署。

摘要由CSDN通过智能技术生成

前言

今天是程序员节，祝大家节日快乐???，2019大家辛苦?啦。

Apache Kafka 是一个可扩展，高性能，低延迟的平台，允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。
Spark Streaming 是 Apache Spark 的一部分，是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的，但是支持 Java API。
Apache Cassandra 是分布式的 NoSQL 数据库。
在这篇文章中，我们将介绍如何通过这三个组件构建一个高扩展、容错的实时数据处理平台。

转载自过往记忆:https://www.iteblog.com/
链接:https://www.iteblog.com/archives/2602.html

准备

在进行下面文章介绍之前，我们需要先创建好 Kafka 的主题以及 Cassandra 的相关表，具体如下：

在 Kafka 中创建名为 messages 的主题

$KAFKA_HOME$\bin\windows\kafka-topics.bat --create \
 --zookeeper localhost:2181 \
 --replication-factor 1 --partitions 1 \
 --topic messages

在 Cassandra 中创建 KeySpace 和 table

CREATE KEYSPACE vocabulary
    WITH REPLICATION = {
    
        'class' : 'SimpleStrategy',
        'replication_factor' : 1
    };
USE vocabulary;
CREATE TABLE words (word text PRIMARY KEY, count int);

上面我们创建了名为 vocabulary 的 KeySpace，以及名为 words

最低0.47元/天解锁文章

weixin_39522170

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparkstreaming监听hdfs目录_使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎...

前言今天是程序员节，祝大家节日快乐???，2019大家辛苦?啦。Apache Kafka 是一个可扩展，高性能，低延迟的平台，允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。Spark Streaming 是 Apache Spark 的一部分，是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的，但是支持 Java API。...
复制链接

扫一扫