Kafka
天地不仁以万物为刍狗
天之道,损有余而补不足
人之道,损不足以奉有馀
展开
-
Mark : Spark Streaming vs. Kafka Stream 哪个更适合你
原文:Spark Streaming vs. Kafka Stream 作者:Mahesh Chand Kandpal 翻译:雁惊寒译者注:本文介绍了两大常用的流式处理框架,Spark Streaming和Kafka Stream,并对他们各自的特点做了详细说明,以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加,仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理...转载 2018-06-02 00:46:29 · 229 阅读 · 0 评论 -
Confluent介绍 kafka 相关
Building a Scalable ETL Pipeline in 30 Minutesconfluent介绍:LinkedIn有个三人小组出来创业了—正是当时开发出Apache Kafka实时信息列队技术的团队成员,基于这项技术Jay Kreps带头创立了新公司Confluent。Confluent的产品围绕着Kafka做的。什么是Confluent Platform?C...转载 2019-06-20 13:43:41 · 250 阅读 · 0 评论 -
source - kafka 高级API和低级API
高级 API produce package com.sinoiov.kafka.test; import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import kafka.serializer.StringEn...转载 2019-06-25 10:50:57 · 541 阅读 · 0 评论 -
kafka API详解
生产者apiProducer是Kafka三大组件中的一个,用于发送消息到kafka集群中Producer提供了丰富的配置(见后面的配置项)用于控制它的行为在编码之前先使用命令创建topic./kafka-topics.sh --create --zookeeper hadoop01,hadoop02,hadoop03:2181 --partitions 2 --replica...转载 2019-06-25 14:52:49 · 237 阅读 · 0 评论 -
Kafka Consumer APIs
Kafka 0.10.X 版本 及 之前http://kafka.apache.org/0100/documentation.html#impl_consumerWe have 2 levels of consumer APIs. The low-level "simple" API maintains a connection to a single broker and has ...原创 2019-06-25 14:51:50 · 97 阅读 · 0 评论 -
kafkaAPI使用以及常用配置介绍
这篇文章主要介绍kafka中JAVA API的使用,这里面为了介绍配置,所以使用的是原生的javaapi操作,kafka可以与spring通过xml配置集成,或者更加简单通过spring boot引入starter,通过(AutoConfiguration)自动配置完成集成。但其实无论何种使用方式,其根本都是使用原生pai进行操作。使用maven依赖管理,引入kafka依赖 <...转载 2019-06-18 17:05:59 · 367 阅读 · 0 评论 -
kafka高级api和低级api的区别和联系
高级 API 的特点优点● 高级API写起来简单● 不需要去自行去管理offset,系统通过zookeeper自行管理● 不需要管理分区,副本等情况,系统自动管理● 消费者断线会自动根据上一次记录在 zookeeper中的offset去接着获取数据(默认设置5s更新一下 zookeeper 中存的的offset),版本为0.10.2● 可以使用group来区分对访问同一个t...转载 2019-06-24 14:19:38 · 373 阅读 · 0 评论 -
揭开Spark Streaming神秘面纱 - Spark Streaming结合 Kafka 两种不同的数据接收方式比较
DirectKafkaInputDStream 只在 driver 端接收数据,所以继承了 InputDStream,是没有 receivers 的在结合 Spark Streaming 及 Kafka 的实时应用中,我们通常使用以下两个 API 来获取最初的 DStream(这里不关心这两个 API 的重载KafkaUtils#createDirectStreamKafkaUti...转载 2019-06-24 16:56:24 · 125 阅读 · 0 评论 -
Kafka Consumer API 的使用
导读Kafka具有两套消费者API:高级API、低级API。本文章将介绍两种API的区别以及使用时需要注意的地方。低级API1. 使用方法find leader broker build request fetch data identify leader change2. 为什么要find leaderkafka在0.8版本后,引入replication机制。每个pa...转载 2019-06-24 19:01:43 · 212 阅读 · 0 评论 -
关于 kafka 偏移量最好最全的说明
1、自动提交偏移量2、手动提交偏移量3、偏移量由消费者管理转:https://blog.csdn.net/wangzhanzheng/article/details/80801059转载 2019-06-24 20:00:49 · 7055 阅读 · 0 评论 -
kafka 对外提供服务方案简述
背景首先,用户数据会经过 kafka 队列传递到我们的业务层。我们希望用户能够通过一个通用层接入我们的kafka服务,但是有的用户希望能够直接连到我们的 kafka 上面,这就需要我们的 kafka 对外暴露broke服务以便被接入。那么如何保证用户数据接入的可靠性和安全性,就成为了这篇文章的主要内容。目标我们希望其他公司数据接入的方式尽量松耦合,尽量不依赖内部架构,而对于一些用户要直...转载 2019-06-24 20:05:18 · 711 阅读 · 0 评论 -
kafka如何彻底删除topic及数据
前言:删除kafka topic及其数据,严格来说并不是很难的操作。但是,往往给kafka 使用者带来诸多问题。项目组之前接触过多个开发者,发现都会偶然出现无法彻底删除kafka的情况。本文总结多个删除kafka topic的应用场景,总结一套删除kafka topic的标准操作方法。step1:如果需要被删除topic 此时正在被程序 produce和consume,则这些生产和消费...转载 2019-07-17 10:33:03 · 158 阅读 · 0 评论 -
翻译 - Kafka vs. Kinesis (待翻译)
KafkaandKinesisaremessage brokersthat have been designed as distributed logs. With them you can only write at the end of the log or you can read entries sequentially. But you cannot remove or upd...翻译 2019-03-15 16:09:30 · 1251 阅读 · 0 评论 -
经验 - MQTT和MQ的区别
两者应用场合不同Kafka是为了数据集成的场景,与以往Pub/Sub消息总线不一样,通过分布式架构提供了海量消息处理、高容错的方式存储海量数据流、保证数据流的顺序等特性。可以参考云上的卡夫卡 - 数据工会。 MQTT是为了物联网场景而优化,不但提供多个QoS选项(exact once、at least once、at most once),而且还有层级主题、遗嘱等等特性。可以参考MQTT入门...原创 2019-02-26 16:43:53 · 7463 阅读 · 0 评论 -
kafka性能监控之KafkaMetrics Sensor
说起kafka的metrics,很多人应该是即陌生又熟悉,熟悉是因为阅读源码的过程中,不可避免地会看到metrics.add()的代码.而陌生是因为metrics仅仅只是辅助功能,并不是kafka主要逻辑的一部分,并不会引起读者太多的关注.同时网上关于metrics这一块的分析也较少,这篇文章就带着大家一探metrics的究竟.在这里首先说明一个容易产生误解的地方,不少文章说kafka使用yamm...转载 2018-06-25 23:15:28 · 1534 阅读 · 0 评论 -
【Big Data 每日一题20180901】 Kafka相对传统技术有什么优势
Apache Kafka与传统的消息传递技术相比优势之处在于:快速:单一的Kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读写操作。可伸缩:在一组机器上对数据进行分区和简化,以支持更大的数据持久:消息是持久性的,并在集群中进行复制,以防止数据丢失。设计:它提供了容错保证和持久性...原创 2018-09-03 23:14:21 · 1685 阅读 · 0 评论 -
【Big Data 每日一题20180902】 Kafka 最大的特点?
最大的特点: 系统间的解耦 和 高吞吐能力解耦 各位系统之间通过消息系统这个统一的接口交换数据,无须了解彼此的存在 冗余 部分消息系统具有消息持久化能力,可规避消息处理前丢失的风险 扩展 消息系统是统一的数据接口,各系统可独立扩展 峰值处理能力消息系统可顶住峰值流量,业务系统可根据处理能力从消息系统中获取并处理对应量的请求 可恢复性 系统中部分组件失效并不会影响整个系统,...原创 2018-09-03 23:17:09 · 131 阅读 · 0 评论 -
【Big Data 每日一题20180903】 Kafka的Zookeeper关系?
Zookeeper是一个开放源码的、高性能的协调服务,它用于Kafka的分布式应用。 Zookeeper主要用于在集群中不同节点之间进行通信 在Kafka中,它被用于提交偏移量,因此如果节点在任何情况下都失败了,它都可以从之前提交的偏移量中获取 除此之外,它还执行其他活动,如: leader检测、分布式同步、配置管理、识别新节点何时离开或连接、集群、节点实时状态等等。 ...原创 2018-09-03 23:21:46 · 122 阅读 · 0 评论 -
【Big Data 每日一题20180904】ISR策略(in-sync Replica) ?
Leader会维护一个与其基本保持同步的Replica列表,该列表称为ISR(in-sync Replica) 如果一个Follower比Leader落后太多,或者超过一定时间未发起数据复制请求,则Leader将其从ISR中移除 当ISR中所有Replica都向Leader发送ACK时,Leader即Commit ...原创 2018-09-03 23:28:39 · 1083 阅读 · 0 评论 -
【每日一题-20181118-summary】kafka总结 - kafka多分区的情况下保证数据的时序性
描述:kafka 在多分区的情况下,跨分区的数据消费是无序的1 个topic --> N个 partation1 个topic --> N组 offset1 个partation --> 1组 offset解决方案:1、就是要把时序性的数据放在同一个分区内,这样消费时才能保证数据的时序性。Kafka只能保证一个分区之内消息的有序性,在不同的分区之间是不可...原创 2018-11-23 16:54:40 · 2716 阅读 · 0 评论 -
【每日一题-20181119-summary --- 待添加】kafka总结 - kafka原理 官方文档片段总结
kafka 官方文档http://kafka.apache.org/documentation.html官方文档片段总结1 介绍 Topics and LogsConsumers and GroupLog Compaction Basics描述Kafka中的Log Compaction是指在默认的日志删除(Log Deletion)规则之外提供的一...原创 2018-11-23 17:13:09 · 155 阅读 · 0 评论 -
【每日一题-20181120-summary】The Log --- 所有系统的 Log 应用总结(问:kafka 为什么使用 log应用?)
http://www.cnblogs.com/foreach-break/p/notes_about_distributed_system_and_The_log.html前言这是一篇学习笔记。学习的材料来自Jay Kreps的一篇讲Log的博文。原文很长,但是我坚持看完了,收获颇多,也深深为Jay哥的技术能力、架构能力和对于分布式系统的理解之深刻所折服。同时也因为某些理解和Jay...转载 2018-11-23 17:22:27 · 203 阅读 · 0 评论 -
学习笔记 --- Kafka Spark Streaming获取Kafka数据 Receiver与Direct的区别
Receiver使用Kafka的高层次Consumer API来实现 receiver从Kafka中获取的数据都存储在Spark Executor的内存中,然后Spark Streaming启动的job会去处理那些数据 要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写日志机制(Write Ahead Log,WAL)。该机制会同步地将接收到的Kafka数据写入...原创 2018-12-04 09:43:25 · 402 阅读 · 0 评论 -
面试 - kafka中partition和消费者对应关系
简洁易懂的总结需要Mark1个partition只能被同组的一个consumer消费,同组的consumer则起到均衡效果消费者多于partitiontopic: test 只有一个partition创建一个topic——test,bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-fa...转载 2019-02-19 12:25:04 · 338 阅读 · 0 评论 -
Kafka 与 日志文件 的 前世今生
数据库系统需要保证数据的稳定性,为了确保修改的数据能够写入库,通常会在更改数据之前先在磁盘里写一条日志文件,大致上的格式是“时间戳:做了什么操作”。如果此后因为故障导致数据本身没有被更改,系统可以根据日志文件一条一条地重新执行操作,让数据恢复到应该恢复的状态。后来有人意识到,这个日志的恢复功能还可以充当数据复制。简单来说,如果两个数据库的初始状态相同,又按照同样的?顺序执行了一系列操作,那么最...转载 2019-07-30 09:11:09 · 136 阅读 · 0 评论