sparkstreaming监听hdfs目录_使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎...

本文介绍了如何利用Apache Kafka、Spark Streaming和Cassandra构建实时数据处理平台。首先创建Kafka主题和Cassandra表,然后通过Java API在Spark Streaming中读取Kafka数据,处理DStream,将结果存入Cassandra,并讨论了Checkpoints的应用和程序的部署。
摘要由CSDN通过智能技术生成

前言

e8e42ba9f59fa9e9bc8230121be79e66.png

今天是程序员节,祝大家节日快乐???,2019大家辛苦?啦。

Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。
Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的,但是支持 Java API。
Apache Cassandra 是分布式的 NoSQL 数据库。
在这篇文章中,我们将介绍如何通过这三个组件构建一个高扩展、容错的实时数据处理平台。

d132b02bb4bea5f81f98969da5733d55.png

转载自过往记忆:https://www.iteblog.com/
链接:https://www.iteblog.com/archives/2602.html

准备

在进行下面文章介绍之前,我们需要先创建好 Kafka 的主题以及 Cassandra 的相关表,具体如下:

在 Kafka 中创建名为 messages 的主题
$KAFKA_HOME$\bin\windows\kafka-topics.bat --create \
 --zookeeper localhost:2181 \
 --replication-factor 1 --partitions 1 \
 --topic messages
在 Cassandra 中创建 KeySpace 和 table
CREATE KEYSPACE vocabulary
    WITH REPLICATION = {
        'class' : 'SimpleStrategy',
        'replication_factor' : 1
    };
USE vocabulary;
CREATE TABLE words (word text PRIMARY KEY, count int);

上面我们创建了名为 vocabulary 的 KeySpace,以及名为 words

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值