kafka系列
文章平均质量分 78
Kafka总结
老猫喜欢今日爬山
不积跬步无以至千里
展开
-
尚硅谷kafka学习笔记(六)Kafka Streams
而Spark Streaming基于Apache Spark,可以非常方便与图计算,SQL处理等集成,功能强大,对于熟悉其它Spark应用开发的用户而言使用门槛低。另外,目前主流的Hadoop发行版,如Cloudera和Hortonworks,都集成了Apache Storm和Apache Spark,使得部署更容易。事实上,Kafka基本上是主流的流式处理系统的标准数据源。而Kafka Stream作为流式处理类库,直接提供具体的类给开发者调用,整个应用的运行方式主要由开发者控制,方便使用和调试。原创 2023-10-26 10:50:17 · 68 阅读 · 0 评论 -
尚硅谷kafka学习笔记(五)Kafka producer拦截器(interceptor)
实现一个简单的双interceptor组成的拦截链。第二个interceptor会在消息发送后更新成功发送消息数或失败发送消息数。onAcknowledgement运行在producer的IO线程中,因此不要在该方法中放入很重的逻辑,否则会拖慢producer的消息发送效率。对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如。如前所述,interceptor可能被运行在多个线程中,因此在具体实现时用户需要自行确保线程安全。原创 2023-10-26 10:46:14 · 117 阅读 · 0 评论 -
尚硅谷kafka学习笔记(四)Kafka API实战
(1)在hadoop102上监控/opt/module/kafka/logs/目录下first主题3个分区的log日志动态变化情况。1)定义一个类实现Partitioner接口,重写里面的方法(过时API)0)需求:将所有数据存储到topic的第0号分区上。当分区的主副本节点发生故障,客户将要找出新的主副本。2)官方提供案例(自动维护消费情况)(新API)根据指定的分区从主题元数据中找到主副本。(2)发现数据都存储到指定的分区了。1)创建消费者(过时API)2)自定义分区(新API)原创 2023-10-26 10:43:26 · 124 阅读 · 0 评论 -
尚硅谷kafka学习笔记(三)Kafka工作流程分析
在图中,有一个由三个消费者组成的group,有一个消费者读取主题中的两个分区,另外两个分别读取一个分区。为了避免这种情况,我们在我们的拉请求中有参数,允许消费者请求在等待数据到达的“长轮询”中进行阻塞(并且可选地等待到给定的字节数,以确保大的传输大小)。对于Kafka而言,pull模式更合适,它可简化broker的设计,consumer可自主控制消费消息的速率,同时consumer可以自己控制消费方式——即可批量消费也可逐条消费,同时还能选择不同的提交方式从而实现不同的传输语义。原创 2023-10-26 10:33:45 · 128 阅读 · 0 评论 -
尚硅谷kafka学习笔记(二)Kafka集群部署
7)分别在hadoop103和hadoop104上修改配置文件/opt/module/kafka/config/server.properties中的。需要server.properties中设置delete.topic.enable=true否则只是标记删除或者直接重启。3)在/opt/module/kafka目录下创建logs文件夹。--replication-factor 定义副本数。1)查看当前服务器中的所有topic。--topic 定义topic名。6)查看某个Topic的详情。原创 2023-10-26 10:26:33 · 104 阅读 · 0 评论 -
尚硅谷kafka学习笔记(一)Kafka概述
topic的消息会复制(不是真的复制,是概念上的)到所有的CG,但每个partion只会把消息发给该CG中的一个consumer。6)Partition:为了实现扩展性,一个非常大的topic可以分布到多个broker(即服务器)上,一个topic可以分为多个partition,每个partition是一个有序的队列。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。原创 2023-10-26 10:21:18 · 269 阅读 · 0 评论