![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Kafka
吃鱼的羊
这个作者很懒,什么都没留下…
展开
-
Kafka史上最详细原理总结
https://blog.csdn.net/ychenfeng/article/details/74980531KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、s...转载 2018-03-30 16:36:42 · 440 阅读 · 0 评论 -
kafka的topic多分区的情况,如何保证跨区的消息消费的顺序性
这个问题严格来说是肯定有的,kafka只能保证分区内的有序性。下面是kafka作者Jay Kreps的blog中介绍kafka设计思想的一段话。Each partition is a totally ordered log, but there is no global ordering between partitions (other than perhaps some wall...转载 2019-09-10 17:16:59 · 3592 阅读 · 0 评论 -
Kafka 0.11.0.0 是如何实现 Exactly-once 语义的
原文地址:https://www.confluent.io/blog/exactly-once-semantics-are-possible-heres-how-apache-kafka-does-it/笔者做了翻译和整理,有误之处请指正。很高兴地告诉大家,具备新的里程碑意义的功能的Kafka 0.11.x版本(对应 Confluent Platform 3.3)已经release,该版...转载 2019-09-10 17:24:46 · 208 阅读 · 0 评论 -
kafka exactly-once
2018年,Apache Kafka以一种特殊的设计和方法实现了强语义的exactly-once和事务性。这篇文章将讲解kafka中exactly-once和事务操作的原理,具体为(1)exactly-once在kafka中的定义。(2)数据生产者“幂等操作”,kafka的事务性以及exactly-once实现原理。(3)exactly-once的流处理。1. 什么是恰好一次e...转载 2019-09-10 17:42:08 · 799 阅读 · 0 评论 -
Flink实战: 结合Kafka构建端到端的Exactly-Once处理程序
前言在消息处理过程中,除了Flink程序本身的逻辑(operator),我们还需要和外部系统进行交互,例如本地磁盘文件,HDFS,Kafka,Mysql等。虽然Flink本身支持Exactly-Once语义,但是对于完整的数据处理系统来说,最终呈现出来的语义和外部系统是相关的。我们先总览一下Flink不同connector的消息传递语义。在Guarantees这一列,我们可以发现以下...转载 2019-09-10 17:57:53 · 960 阅读 · 0 评论 -
apache flink 保证端到端exactly-once语义的简介(同样适用于kafka!)- 翻译自官网
这篇文章翻译自flink官网博客(An Overview of End-to-End Exactly-Once Processing in Apache Flink (with Apache Kafka, too!)). 翻译加上了点自己的理解,也省略了一些原文的表述,若有错误和并准确的地方请指出,还是推荐看一下原汁原味英文版哈。正文开始:2017年12月,apache flink 1.4...转载 2019-09-10 18:10:32 · 335 阅读 · 0 评论 -
Flink exactly-once 实战笔记(精确一次写入外部数据)
Flink-Kafka众所周知,Flink在很早的时候就通过Checkpointing提供了exactly-once的semantic,不过仅限于自身或者是从KafkaConsumer中消费数据。而在Flink 1.4版本的时候加入了赫赫有名的TwoPhaseCommitSinkFunction,提供了End-to-End的exatcly-once语言,当然是在需要下游支持回滚的情况下,具体的...转载 2019-09-10 18:24:27 · 1788 阅读 · 1 评论 -
Flink是如何实现exactly-once语义的(精确一次读取外部数据)
最少一次:断了之后 重新执行 再去重严格一次:根据检查点,再执行一次-------------------------------------------------------------------------------------------Flink跟其他的流计算引擎相比,最突出或者做的最好的就是状态的管理.什么是状态呢?比如我们在平时的开发中,需要对数据进行count,su...转载 2019-09-10 18:28:18 · 3980 阅读 · 1 评论 -
Flink实现Kafka到Mysql的Exactly-Once
一、背景 最近项目中使用Flink消费kafka消息,并将消费的消息存储到mysql中,看似一个很简单的需求,在网上也有很多flink消费kafka的例子,但看了一圈也没看到能解决重复消费的问题的文章,于是在flink官网中搜索此类场景的处理方式,发现官网也没有实现flink到mysql的Exactly-Once例子,但是官网却有类似的例子来解决端到端的仅一次消费问题。这个现成的例...转载 2019-09-11 10:04:57 · 1637 阅读 · 7 评论 -
Kafka基本原理和java简单使用教程
Apache Kafka学习(一):Kafka基本原理1、什么是Kafka?Kafka是一个使用Scala编写的消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。Kafka是一种分布式的,基于发布/订阅的消息系统。Kafk...转载 2019-09-10 17:09:32 · 721 阅读 · 0 评论 -
Kafka利用Java实现数据的生产和消费实例教程
https://www.jb51.net/article/133854.htm前言在上一篇中讲述如何搭建kafka集群,本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候,还是应该简单的了解下kafka。Kafka的介绍Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。Kafka 有如下特性:以时间复杂度为O(1...转载 2019-09-10 16:17:41 · 618 阅读 · 0 评论 -
flume抽取mysql数据到kafka
https://blog.51cto.com/leizhu/2300147kafka+zookeeper搭建见文章教程urlflume安装:1、下载地址2、安装-下图新建数据库和表3、配置新增conf/mysql-flume.conf[root@node191 apache-flume-1.8.0-bin]# cat conf/mysql-flume.conf ...转载 2019-06-25 16:07:11 · 1366 阅读 · 0 评论 -
kafka1.0.0集群搭建
https://blog.51cto.com/leizhu/2075724一、环境准备1、软件zookeeper3.4.11https://www.apache.org/dyn/closer.cgi/zookeeper/kafka1.0.0https://www.apache.org/dyn/closer.cgi?path=/kafka/1.0.0/kafka_2.11-1.0...转载 2019-06-25 16:09:02 · 289 阅读 · 0 评论 -
Flume概念与原理、与Kafka优势对比
原文:https://blog.csdn.net/gyshun/article/details/797105341 .背景flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件...转载 2019-06-28 11:40:18 · 788 阅读 · 0 评论 -
Kafka 安装及快速入门
原文:https://segmentfault.com/a/1190000012730949介绍官网:http://kafka.apache.org/Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Apache Kafka...转载 2019-08-02 15:25:25 · 319 阅读 · 0 评论 -
解决kafka connect 启动报错 java.lang.NoSuchMethodError: com.google.common.collect.Sets$SetView.iterator()
报错./bin/connect-distributed.sh ./config/connect-distributed.properties1./bin/connect-standalone.sh ./bin/connect-standalone.sh ./config/connect-file-source.properties ./config/connect-file-sink....转载 2019-08-02 15:27:34 · 5012 阅读 · 0 评论 -
Kafka Connect 概念
Kafka Connect是一个用于将数据流输入和输出Kafka的框架。Confluent平台附带了几个内置connector,可以使用这些connector进行关系数据库或HDFS等常用系统到kafka的数据传输。为了有效地讨论Kafka Connect的内部工作,建立一些主要的概念是有帮助的。Connectors:通过管理task来协调数据流的高级抽象 Tasks:如何将数据复制到Ka...转载 2019-08-19 18:47:38 · 821 阅读 · 0 评论 -
使用kafka connect 实现从oracle到kafka的数据同步
--kafka connect downloadhttps://www.confluent.io/hub/https://docs.confluent.io/4.1.1/connect/connect-jdbc/docs/source_connector.html1.登陆Oracle:[oracle@localhost ~]$ lsnrctl status[oracle@lo...转载 2019-08-20 18:48:25 · 5520 阅读 · 2 评论 -
flink引出的kafka不同版本的兼容性
https://www.cnblogs.com/Springmoon-venn/p/10690531.html参考:官网协议介绍:http://kafka.apache.org/protocol.html#The_Messages_Fetchkafka协议兼容性http://www.cnblogs.com/huxi2b/p/6784795.html最近在使用flink...转载 2019-09-02 09:31:18 · 5092 阅读 · 1 评论 -
浅谈Kafka的分区
单纯地将Kafka理解为消息总线(Message Bus)并不全面,它除了能提供快速、可扩展、高可用(Kafka的高可用不一定需要分布式的多节点来实现)且持续的基于发布/订阅模式的总线服务外,你还可以把它看作可分布式的冗余的日志提交服务。在Kafka消息总线中,消息的生产者和消费者是严格分隔开的,而任何客户端可以在Kafka消息缓存释放前(默认是7天,不管消息有没有被消费过)重播任何总线消息。...转载 2019-09-27 10:03:56 · 808 阅读 · 0 评论