kafka
文章平均质量分 95
jy02268879
这个作者很懒,什么都没留下…
展开
-
【五】kafka体系架构之kafka服务端概述(broker、控制器)
1.Broker处理请求流程在Kafka的架构中,会有很多客户端向Broker端发送请求,Kafka 的 Broker 端有个 SocketServer 组件,用来和客户端建立连接,然后通过Acceptor线程来进行请求的分发,由于Acceptor不涉及具体的逻辑处理,非常得轻量级,因此有很高的吞吐量。接着Acceptor 线程采用轮询的方式将入站请求公平地发到所有网络线程中,网络线程池默认大小是 3个,表示每台 Broker 启动时会创建 3 个网络线程,专门处理客户端发送的请求,可以通.原创 2021-01-23 14:36:56 · 852 阅读 · 1 评论 -
【三】kafka体系架构之消费者客户端概述(分区分配策略、再均衡、偏移量)
参考提交偏移量消费端一、消费者代码demo讲解<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 ht.原创 2021-01-06 19:21:29 · 1182 阅读 · 0 评论 -
【十二】kafka事务机制
转自Kafka 设计解析(八):Kafka 事务机制与 Exactly Once 语义实现原理,作者郭俊本文所有 Kafka 原理性的描述除特殊说明外均基于 Kafka 1.0.0 版本。Kafka 事务机制的实现主要是为了支持Exactly Once即正好一次语义 操作的原子性 有状态操作的可恢复性Exactly Once《Kafka 背景及架构介绍》一文中有说明 Kafka 在 0.11.0.0 之前的版本中只支持At Least Once和At Most Once语义,尚不支持.原创 2021-01-28 18:07:04 · 3278 阅读 · 0 评论 -
【十一】消息中间件选型分析——从Kafka与RabbitMQ的对比来看全局
转载:消息中间件选型分析——从Kafka与RabbitMQ的对比来看全局一、前言消息队列中间件(简称消息中间件)是指利用高效可靠的消息传递机制进行与平台无关的数据交流,并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型,它可以在分布式环境下提供应用解耦、弹性伸缩、冗余存储、流量削峰、异步通信、数据同步等等功能,其作为分布式系统架构中的一个重要组件,有着举足轻重的地位。目前开源的消息中间件可谓是琳琅满目,能让大家耳熟能详的就有很多,比如ActiveMQ、RabbitMQ、Kafk转载 2020-05-09 16:18:19 · 218 阅读 · 0 评论 -
【十】kafka之为何高性能、监控关注指标
一、kafka为何高性能1.分区kafka是个分布式集群的系统,整个系统可以包含多个broker,也就是多个服务器实例。每个主题topic会有多个分区,kafka将分区均匀地分配到整个集群中,当生产者向对应主题传递消息,消息通过负载均衡机制传递到不同的分区以减轻单个服务器实例的压力。一个Consumer Group中可以有多个consumer,多个consumer可以同时消费不同分区的消息,大大的提高了消费者的并行消费能力。但是一个分区中的消息只能被一个Consumer Group中的一个con转载 2020-05-09 11:05:01 · 393 阅读 · 0 评论 -
【九】kafka延迟队列、重试队列、死信队列
一、延迟队列实现方案:在发送延时消息的时候并不是先投递到要发送的真实主题(real_topic)中,而是先投递到一些 Kafka 内部的主题(delay_topic)中,这些内部主题对用户不可见,然后通过一个自定义的服务拉取这些内部主题中的消息,并将满足条件的消息再投递到要发送的真实的主题中,消费者所订阅的还是真实的主题。如果采用这种方案,那么一般是按照不同的延时等级来划分的,比如设定5s、10s、30s、1min、2min、5min、10min、20min、30min、45min、1h转载 2020-05-09 10:56:50 · 26010 阅读 · 0 评论 -
【七】kafka可靠性、有序性、重复消费、丢数据、线程安全
一、哪些情况会造成重复消费1.生产者挂了重启场景:生产者设置的ACK是ALL,及需要所有副本都保存了消息才叫发送成功。假设生产者发送一条信息,leader已经收到且已经保存了,follower还没来得及同步,leader就挂了。此时会被认为是发送失败,重发。而刚好重发的时候旧的leader又重启复活了,那旧的leader会保存两次同样的数据2.消费者自动提交偏移量场...原创 2020-05-07 17:47:07 · 1020 阅读 · 0 评论 -
【四】kafka体系架构之kafka服务端概述(日志存储)
基于kafka 2.11版本kafka-clients 2.2.2一、架构图1.kafka体系架构图由此可以看到kafka体系架构的组成有如下几部分:1.producer生产者,发送消息到kafka cluster2.kafka cluster是由broker组成的集群3.consumer消费者,从kafka cluster中pull拉取消息进行消费4.zo...原创 2020-05-07 15:00:21 · 521 阅读 · 0 评论 -
【二】kafka体系架构之生产者客户端概述
基于2.11版本一、架构图由此可以看到kafka体系架构的组成有如下几部分:1.producer生产者,发送消息到kafka cluster2.kafka cluster是由broker组成的集群3.consumer消费者,从kafka cluster中pull拉取消息进行消费4.zookeeper cluster,用于保存kafka集群的元数据二、produc...原创 2020-05-03 22:44:14 · 579 阅读 · 0 评论 -
【六】Flume整合Kafka完成实时数据采集
agent选择A机器 exec source + memory channel + avro sinkB机器 avro source + memory channel avro source: 监听avro端口,并且接收来自外部avro信息,avro sink:一般用于跨节点传输,主要绑定数据移动目的地的ip和port这里测试的时候准备两台服务器!两台都要安装flume。我这里用的是node1服务...原创 2018-07-16 03:17:23 · 2781 阅读 · 0 评论 -
【一】kafka安装及基本使用
概述kafka是一个分布式的流处理平台。它通常用于构建实时的数据管道,以及实时流处理。能够横向扩展,有容错机制,高速运行在生产上。特性:发布&订阅:像消息系统一样读写流数据。处理:数据流能够高效的被处理,接近实时。存储:数据流能够安全的在进行分布式中多副本的存储。kafka架构:producer:生产者consumer:消费者broker:存储容器。...原创 2018-06-10 22:54:40 · 765 阅读 · 0 评论 -
Logstash整合kafka
环境ubuntu16.04kafka0.9.0.0logstash2.4.1zookeeper3.4.9JDK1.8启动zkcd /app/zookeeper/bin./zkServer.sh start启动kafkacd /app/kafkabin/kafka-server-start.sh -daemon config/server.properties &创建topicbin/kaf...原创 2018-06-10 22:55:41 · 16043 阅读 · 1 评论 -
【八】storm+kafka整合
官网参考0.8.X的kafkamaven的pom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://mav...原创 2018-07-10 02:50:42 · 1346 阅读 · 0 评论 -
【十四】Spark Streaming整合Kafka使用Receiver方式(使用Scala语言)
官方网站Kafka提供了新的consumer api 在0.8版本和0.10版本之间。0.8的集成是兼容0.9和0.10的。但是0.10的集成不兼容以前的版本。这里使用的集成是spark-streaming-kafka-0-8。官方文档配置SparkStreaming接收从kafka来的数据有两种方式。老的方式要使用Receiver,新的方式是Spark1.3后引进的不用Recei...原创 2018-07-19 01:21:19 · 1582 阅读 · 0 评论 -
【十五】Spark Streaming整合Kafka使用Direct方式(使用Scala语言)
官网介绍Kafka提供了新的consumer api 在0.8版本和0.10版本之间。0.8的集成是兼容0.9和0.10的。但是0.10的集成不兼容以前的版本。这里使用的集成是spark-streaming-kafka-0-8。官方文档配置SparkStreaming接收从kafka来的数据有两种方式。老的方式要使用Receiver,新的方式是Spark1.3后引进的不用Recei...原创 2018-07-19 03:25:50 · 3925 阅读 · 0 评论 -
【十六】Log4j+Flume+Kafka+Spark Streaming(使用Scala语言)
项目目录pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apach...原创 2018-07-19 06:02:01 · 543 阅读 · 0 评论 -
【十八Spark Streaming实战】日志分析之Flume+Kafka+Spark Streaming+Hbase
【十七Spark Streaming实战】日志分析之用python生成日志对接Python日志产生器输出的日志到Flume1.编写flume agent的配置文件在node1上进入flume目录cd /app/flume/flume/conf创建flume的agent配置文件vi test-streaming-project.conf#streaming-projec...原创 2018-07-23 02:56:17 · 1961 阅读 · 0 评论 -
【十三】景区人流量统计:python日志生成+logstash+kafka+storm+mysql+springBoot+高德地图
storm+kafka+logstash+springBoot+高德地图项目概述:作用:交通信息化,智慧城市需求:实时统计人流量并通过热力图展示。类似于腾讯热力图的景区人流量统计如何采集某个区域人流量的数据:1.GPS:获取经纬度信息。2.手机移动网络信令:移动通信信令(数据样本容量大,覆盖范围广,数据稳定可靠)对信令信息的相应字段进行分析、挖掘、并结合GIS技...原创 2018-08-01 23:24:23 · 5830 阅读 · 1 评论