kafka与streaming集成两种方式

本文介绍了如何将Apache Kafka与Spark Streaming进行集成,详细阐述了两种不同的集成方法:Receiver-based Approach和Direct Approach,并提供了创建Topic、发布消息、启动Spark Shell及编写相关脚本的步骤。同时,还讨论了Kafka的特性及其分布式架构。
摘要由CSDN通过智能技术生成

hadoop,spark,kafka交流群:224209501

标签(空格分隔): spark


简介

Apache Kafka是分布式发布-订阅消息系统。它最初由Linkedln公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展、设计内在就是分布式的,分区的和可复制的提交日志服务。
Apache Kafka与传统消息系统相比有以下不同:

  • 它被设计为一个分布式系统,易于向外扩展
  • 他同时为发布和订阅提供高吞吐量
  • 它支持多订阅者,当失败时能自动平衡消费者;
  • 它将消息持久化到磁盘,因此可用于批量消费,例如ETL,以及实时应用程序。
    kafka架构
  • 生产者(Producer)是能够发布消息到话题的任何对象。
  • 已发布的消息保存在一组服务器中,他们被称为代理(Broker)或者Kafka集群
  • 消费者可以订阅一个或多个话题,并从Broker拉数据,从而消费这些已发布的消息。
  • 话题(Topic)是特定类型的消息流。消息是字节的有效负载Payload),话题是消息的分类或者种子(feed)名。
    kafka集群模式单集群
    producer_consumer.png-8.5kB
    详细的kafka结构图
    kafka-cluster.png-28.2kB
    A two server Kafka cluster hosting four partitions (P0-P3) with two consumer groups. Consumer group A has two consumer instances and group B has four.
    consumer-groups.png-26.2kB

1,配置kafka

1,produce.properties

metadata.broker.list=miaodonghua.host:9092

2,server.properties

host.name=miaodonghua.host
log.dirs=/opt/cdh5.3.6/kafka_2.10-0.8.2.1/kafka-logs
zookeeper.connect=miaodonghua.host:2181

3,使用kafka

bin/kafka-server-start.sh config/server.properties 

启动kafka成功.png-25.2kB

1) 创建 Topic

bin/kafka-topics.sh --create --zookeeper miaodonghua.host:2181 --replication-factor 1 --partitions 1 --topic test

创建topic成功.png-45.9kB
查看topic

bin/kafka-topics.sh --list --zookeeper miaodonghua.host:2181

查看topic.png-25.5kB

2) 发布信息到Topic

bin/kafka-console-producer.sh --broker-list miaodonghua.host:9092 --topic ucloudSafe

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值