Spark Streaming on Kafka解析和安装实战

最新推荐文章于 2022-08-19 15:11:23 发布

二府村

最新推荐文章于 2022-08-19 15:11:23 发布

阅读量2.4k

点赞数

分类专栏： Spark梦想文章标签： Kafka spark Kafka安装 zookeeper安

本文链接：https://blog.csdn.net/erfucun/article/details/52266500

版权

本文详细介绍了Kafka的概念、架构和使用消息系统的原因，包括解耦、冗余、扩展性等优势。接着，深入讲解了Kafka的分布式特性、架构组件如Topic、Producer、Consumer和Kafka Cluster。此外，还分享了Zookeeper在Kafka集群中的角色和安装配置步骤，包括创建data目录、配置zoo.cfg和myid文件等。最后，文章概述了Kafka的安装配置过程，包括下载、解压、配置server.properties和启动服务。验证安装成功的步骤包括创建Topic、生产和消费消息。

摘要由CSDN通过智能技术生成

本博文内容主要包括以下几点：

1、Kafka解析；
2、Kafka的安装和实战。

一、Kafka的概念、架构和用例场景：

1、Kafka的概念：
Apache Kafka是分布式发布-订阅消息系统。
它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。
kafka对消息保存时根据Topic（及发送消息内容）进行归类，发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成，每个实例(server)成为broker。
Kafka就是这样的通信组件，将不同对象组件粘合起来的纽带，且是解耦合方式传递数据。

2，为何使用消息系统：
（1）解耦
在项目启动之初来预测将来项目会碰到什么需求，是极其困难的。消息系统在处理过程中间插入了一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。
（2）冗余
有些情况下，处理数据的过程会失败。除非数据被持久化，否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的”插入-获取-删除”范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。
（3）扩展性
因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。不需要改变代码、不需要调节参数。扩展就像调大电力按钮一样简单。
（4）灵活性 & 峰值处理能力
在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见；如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。
（5）可恢复性
系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。
（6）顺序保证
在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性。
（7）缓冲
在任何重要的系统中，都会有需要不同的处理时间的元素。例如，加载一张图片比应用过滤器花费更少的时间。消息队列通过一个缓冲层来帮助任务最高效率的执行———写入队列的处理会尽可能的快速。该缓冲有助于控制和优化数据流经过系统的速度。
（8）异步通信
很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

Apache Kafka与传统消息系统相比，有以下不同的特点：
（1）分布式系统，易于向外扩展；
（2）在线低延迟，同时为发布和订阅提供高吞吐量；
（3）将消息存储到磁盘，因此可以处理1天甚至1周前内容

3、Kafka的架构：
这里写图片描述

Kafka既然具备消息系统的基本功能，那么就必然会有组成消息系统的组件：Topic，Producer和Consumer。Kafka还有其特殊的Kafka Cluster组件。

Topic主题：
代表一种数据的类别或类型，工作、娱乐、生活有不同的Topic，生产者需要说明把说明数据分别放在那些Topic中，里面就是一个个小对象，并将数据数据推到Kafka，消费者获取数据是pull的过程。一组相同类型的消息数据流。这些消息在Kafka会被分区存放，并且有多个副本，以防数据丢失。每个分区的消息是顺序写入的，并且不可改写。
这里写图片描述

Producer（生产者）：把数据推到Kafka系统的任何对象。
- Kafka Cluster（Kafka集群）：把推到Kafka系统的消息保存起来的一组服务器，也叫Broker。因为Kafka集群用到了Zookeeper作为底层支持框架，所以由一个选出的服务器作为Leader来处理所有消息的读和写的请求，其他服务器作为Follower接受Leader的广播同步备份数据，以备灾难恢复时用。
Consumer（消费者）：从Kafka系统订阅消息的任何对象。

消费者可以有多个，并且某些消费者还可以组成Consumer Group。多个Consumer Group之间组成消息广播的关系，所以各个Group可以拉相同的消息数据。在Consumer Group内部，各消费者之间对Consumer Group拉出来的消息数据是队列先进先出的关系，某个消息数据只能给该Group的一个消费者使用。