![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kafka
文章平均质量分 66
Hey 锡瑞
这个作者很懒,什么都没留下…
展开
-
深入理解Kafka:Stream
而Spark Streaming基于Apache Spark,可以非常方便与图计算,SQL处理等集成,功能强大,对于熟悉其它Spark应用开发的用户而言使用门槛低。(1)第一,Spark和Storm都是流式处理框架,而Kafka Stream提供的是一个基于Kafka的流式处理类库。(4)第四,使用Storm或Spark Streaming时,需要为框架本身的进程预留资源,如Storm的supervisor和Spark on YARN的node manager。高扩展性,弹性,容错。原创 2020-07-05 22:24:58 · 242 阅读 · 1 评论 -
深入理解kafka:消费者
Consumer处理partition里面的message的时候是o(1)顺序读取的。所以必须维护着上一次读到哪里的offsite信息。high level API,offset存于Zookeeper中,low level API的offset由自己维护。一般来说都是使用high level api的。原创 2020-07-03 09:37:09 · 1100 阅读 · 1 评论 -
深入理解kafka:生产者
生产者在成功发送消息到 Kafka 之后,会等待 leader 副本和所有的 follower 副本都成功写入消息到日志中,然后才会收到来自服务器的确认。生产者在成功发送消息到 Kafka 之后,会等待 leader 副本成功写入消息到日志中,然后就会收到来自服务器的确认。生产者在成功发送消息到 Kafka 之后,不会等待任何来自服务器的响应。原创 2020-07-02 08:51:42 · 760 阅读 · 1 评论 -
基于canal+kafka+flink实现实时增量同步4:kafka消息入库到MySQL功能演示
一、新建三个表(1)主表user_id。它包含有主键user_idCREATE TABLE `user_id` ( `user_id` int(11) NOT NULL, `name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL, `age` int(11) DEFAULT NULL, `user_info_id` int(11) DEFAULT NULL, PRIMARY KEY原创 2021-05-26 17:24:17 · 934 阅读 · 0 评论 -
基于canal+kafka+flink实现实时增量同步3:MySQL到Kafka功能演示
一、Cannal介绍二、Cannal作用canal是alibaba开源的基于mysql binlog解析工具,可利用它实现mysql增量订阅/消费。利用canal,可以将mysql的数据变化,通过解析binlog,投递到kafka(或rocket mq),mq的消费方,可以把这些数据变化,应用到不同的业务场景,比如:1. 同步到redis(即:数据库的变化自动同步到缓存)2. 同步到es搜索引擎(即:数据库的变化自动刷新ES索引)3. 同步到其它异构数据库(即:mysql的变化,自动原创 2021-05-10 21:43:44 · 1329 阅读 · 0 评论 -
基于canal+kafka+flink的实时增量同步功能1:mysqlTokafka代码实现
背景:假如一个系统注册⽤户就 20 万,每天活跃⽤户就 1 万,每天单表数据量就 1000,然后⾼峰期每秒钟并发请求最多就 10。公司业务发展迅猛,过了⼏个⽉,注册⽤户数达到了 2000 万!每天活跃⽤户数 100 万!每天单 表新增数据量达到 50 万条!⾼峰期每秒请求量达到 1 万,因为每天单表新增 50 万条数据,⼀个⽉就多 1500 万条数据,⼀年下来单表会达到上亿条数据。经过⼀段时间的运⾏,单表已经两三千万条数据了,勉强还能⽀撑着。但是单表数据量越来越⼤,拖垮了⼀些复杂 查询 SQL 的性原创 2021-03-31 11:39:59 · 844 阅读 · 0 评论 -
基于canal+kafka+flink的实时增量同步功能2:消费者kafkaTomysql代码实现
常见问题:Eureka 注册中⼼使⽤什么样的⽅式来储存各个服务注册时发送过来的机器地址和端⼝号? 各个服务找 Eureka Server 拉取注册表的时候,是什么样的频率? 各个服务是如何拉取注册表的? ⼀个⼏百服务,部署上千台机器的⼤型分布式系统,会对 Eureka Server 造成多⼤的访问压 ⼒? Eureka Server 从技术层⾯是如何抗住⽇千万级访问量的?一、Eureka Server 注册表存储结构示例:(1)假设⼿头有⼀套⼤型的分布式系统,⼀共 100 个服务,每个原创 2021-04-08 20:44:21 · 814 阅读 · 4 评论 -
深入理解Kafka:组件
1.1、什么是kafkaKafka是最初由领英公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,消息服务等等,用scala语言编写。主题信息属于kafka的元数据,存储在zookeeper中。原创 2020-06-11 19:43:01 · 460 阅读 · 1 评论