kafka与streaming集成两种方式

最新推荐文章于 2024-08-15 10:17:22 发布

正义飞

最新推荐文章于 2024-08-15 10:17:22 发布

阅读量5.6k

点赞数 1

分类专栏： hadoop 文章标签： hadoop spark 分布式 kafka

本文链接：https://blog.csdn.net/u011308691/article/details/51442215

版权

本文介绍了如何将Apache Kafka与Spark Streaming进行集成，详细阐述了两种不同的集成方法：Receiver-based Approach和Direct Approach，并提供了创建Topic、发布消息、启动Spark Shell及编写相关脚本的步骤。同时，还讨论了Kafka的特性及其分布式架构。

摘要由CSDN通过智能技术生成

hadoop,spark,kafka交流群：224209501

标签（空格分隔）： spark

简介

Apache Kafka是分布式发布-订阅消息系统。它最初由Linkedln公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展、设计内在就是分布式的，分区的和可复制的提交日志服务。
Apache Kafka与传统消息系统相比有以下不同：

它被设计为一个分布式系统，易于向外扩展
他同时为发布和订阅提供高吞吐量
它支持多订阅者，当失败时能自动平衡消费者；
它将消息持久化到磁盘，因此可用于批量消费，例如ETL，以及实时应用程序。
kafka架构
生产者(Producer)是能够发布消息到话题的任何对象。
已发布的消息保存在一组服务器中，他们被称为代理(Broker)或者Kafka集群
消费者可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息。
话题(Topic)是特定类型的消息流。消息是字节的有效负载Payload)，话题是消息的分类或者种子(feed)名。
kafka集群模式单集群

详细的kafka结构图

A two server Kafka cluster hosting four partitions (P0-P3) with two consumer groups. Consumer group A has two consumer instances and group B has four.

1，配置kafka

1，produce.properties

metadata.broker.list=miaodonghua.host:9092

2，server.properties

host.name=miaodonghua.host
log.dirs=/opt/cdh5.3.6/kafka_2.10-0.8.2.1/kafka-logs
zookeeper.connect=miaodonghua.host:2181

3，使用kafka

bin/kafka-server-start.sh config/server.properties

启动kafka成功.png-25.2kB

1) 创建 Topic

bin/kafka-topics.sh --create --zookeeper miaodonghua.host:2181 --replication-factor 1 --partitions 1 --topic test

创建topic成功.png-45.9kB
查看topic

bin/kafka-topics.sh --list --zookeeper miaodonghua.host:2181

查看topic.png-25.5kB

2) 发布信息到Topic

bin/kafka-console-producer.sh --broker-list miaodonghua.host:9092 --topic ucloudSafe

最低0.47元/天解锁文章

正义飞

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录