zzzzMing-CSDN博客

原创 kafka 异步双活方案 mirror maker2 深度解析

mirror maker2背景通常情况下，我们都是使用一套kafka集群处理业务。但有些情况需要使用另一套kafka集群来进行数据同步和备份。在kafka早先版本的时候，kafka针对这种场景就有推出一个叫mirror maker的工具（mirror maker1，以下mm1即代表mirror maker1），用来同步两个kafka集群的数据。最开始版本的mirror maker本质上就是一个消费者 + 生产者的程序。但它有诸多诸多不足，包括目标集群的Topic使用默认配置创建，但通常需要手动rep

2021-01-12 21:01:06 2393

原创 kafka rebalance解决方案 -incremental cooperative协议和static membership功能

apache kafka的重平衡（rebalance），一直以来都为人诟病。因为重平衡过程会触发stop-the-world（STW），此时对应topic的资源都会处于不可用的状态。小规模的集群还好，如果是大规模的集群，比如几百个节点的consumer或kafka connect等，那么重平衡就是一场灾难。所以我们要尽可能避免重平衡，在之前的文章中也有介绍过这点，有关重平衡的基础内容可以参阅：详细解析kafka之 kafka消费者组与重平衡机制在kafka2.4的时候，社区推出两个新feature来解决

2020-12-23 20:20:16 878

原创什么,kafka能够从follower副本读数据了 —kafka新功能介绍

最近看了kafka2.4新版本的一些功能特性，不得不说，在kafka2.0以后，kafka自身就比较少推出一些新的feature了，基本都是一些修修补补的东西。倒是kafka connect和kafka stream相关的开发工作做的比较多。可能kafka的野心也不局限于要当一个中间件，而是要实现一个流处理系统的生态了。这次要介绍的是我觉得比较有意思的两个特性，一个是kafka支持从follower副本读取数据，当然这个功能并不是为了提供读取性能，后面再详细介绍。另一个则是新推出的sticky parti

2020-12-02 20:32:19 979

原创 kafka SASL认证介绍及自定义SASL PLAIN认证功能

文章目录kafka 2.x用户认证方式小结SASL/PLAIN实例（配置及客户端）broker配置客户端配置自定义SASL/PLAIN认证（二次开发）kafka2新的callback接口介绍自定义sasl/plain功能用户认证功能，是一个成熟组件不可或缺的功能。在0.9版本以前kafka是没有用户认证模块的（或者说只有SSL），好在kafka0.9版本以后逐渐发布了多种用户认证功能，弥补了这一缺陷（这里仅介绍SASL）。本篇会先介绍当前kafka的四种认证方式，然后过一遍部署SASL/PLAIN认证功

2020-11-23 19:45:39 2128

原创 Hive使用Calcite CBO优化流程及SQL优化实战

文章目录Hive SQL执行流程Hive debug简单介绍Hive SQL执行流程Hive 使用Calcite优化Hive Calcite优化流程Hive Calcite使用细则Hive向Calcite提供元数据上一篇主要对Calcite的背景，技术特点，SQL的RBO和CBO等做了一个初步的介绍。深入浅出Calcite与SQL CBO（Cost-Based Optimizer）优化这一篇会从Hive入手，介绍Hive如何使用Calcite来优化自己的SQL，主要从源码的角度进行介绍。文末附有一篇其他

2020-09-22 19:32:40 1302

原创深入浅出Calcite与SQL CBO（Cost-Based Optimizer）优化

文章目录Calcite简介与CBO介绍Calcite背景与介绍SQL优化与CBOCalcite优化器HepPlanner优化器与VolcanoPlanner优化器Calcite优化样例代码介绍前阵子工作上需要用到Calcite做一些事情，然后发现这个东西也是蛮有意思的，就花了些时间研究了一下。本篇主要围绕SQL 优化这块来介绍Calcite，后面会介绍Hive如何Calcite进行SQL的优化。此外，也将Calcite的一些使用样例整理成到github，https://github.com/shezhi

2020-09-16 19:00:35 975

原创 docker，容器，编排，和基于容器的系统设计模式

文章目录从容器说起背景docker实现原理编排之争基于容器的分布式系统设计之道单节点协作模式Sidecar pattern（边车模式）Ambassador pattern（外交官模式）Adapter pattern（适配器模式）多节点协作模式都2020年了，容器，或者说docker容器这个概念，从事互联网行业的开发者应该都不会感到陌生。无论大厂还是小厂的应用部署现在都首选docker容器。但是docker虽好，却并非万能。docker本身，其实仅仅是提供了一种沙盒的机制，对不同应用进行隔离。镜像是它出彩

2020-08-10 20:50:17 484

原创 kylin streaming原理介绍与特点浅析

文章目录前言kylin streaming设计和原理架构介绍streaming coordinatorstreaming receiver clusterkylin streaming数据构建流程kylin streaming查询流程kylin streaming实现细节kylin streaming segment存储实现重平衡/重分配故障恢复kylin streaming优化总结前言最近搭了Kylin Streaming并初步测试了下，觉得这个东西虽然有些限制，但还是蛮好用的，所以系统写篇文章总结下

2020-07-27 21:19:50 352

原创大数据相关资料论文小结

前言不知不觉，2020年已经过去一半了，最近突然反应过来自己也看了不少文献资料了，就想着把看过的文献和觉得比较好的书籍做一个总结，基本都是大数据分布式领域的，回顾自己学识的同时，也给想从事或这个领域的小伙伴一些参考 ????。最后顺便把接下来要看的东西列个列表，也会将自己学习的心得和经验分享出来，有需要的童鞋可以参考参考。另外有些文献看完我会进行整理和输出，这部分链接我一并附在文献的介绍后面，后面看的书或是文献也会保持这种习惯，如果觉得有兴趣欢迎各位大佬交流，顺便也可以点波关注~~论文总结MapRe

2020-07-16 19:32:57 2337

原创 AnalyticDB实现和特点浅析

文章目录AnalyticDB介绍与背景AnalyticDB详细解析架构设计数据分区读写分离和读写流程其他特性介绍混合（列-行）存储引擎索引小结本篇主要是根据AnalyticDB的论文，来讨论AnalyticDB出现的背景，各个模块的设计，一些特性的解析。可能还会在一些点上还会穿插一些与当前业界开源实现的比对，希望能够有一个更加深入的探讨。OK，那我们开始吧。AnalyticDB介绍与背景要说AnalyticDB，那起码得知道它是干什么的。这里直接贴下百度百科的介绍：AnalyticDB是阿里云自主

2020-07-01 20:08:16 4732 3

原创 java并发编程 --并发问题的根源及主要解决方法

文章目录并发问题的根源在哪缓存导致的可见性线程切换带来的原子性编译器优化带来的有序性主要解决办法避免共享Immutability（不变性）管程及其他工具并发问题的根源在哪首先，我们要知道并发要解决的是什么问题？并发要解决的是单进程情况下硬件资源无法充分利用的问题。而造成这一问题的主要原因是CPU-内存-磁盘三者之间速度差异实在太大。如果将CPU的速度比作火箭的速度，那么内存的速度就像火车，而最惨的磁盘，基本上就相当于人双腿走路。这样造成的一个问题，就是CPU快速执行完它的任务的时候，很长时间都会在等待

2020-06-17 08:15:41 783

原创数据的存储结构浅析LSM-Tree和B-tree

文章目录顺序存储与哈希索引SSTable和LSM treeB-Tree存储结构的比对小结本篇主要讨论的是不同存储结构（主要是LSM-tree和B-tree），它们应对的不同场景，所采用的底层存储结构，以及对应用以提升效率的索引。所谓数据库，最基础的功能，就是保存数据，并且在需要的时候可以方便地检索到需要的数据。在这个基础上，演化出了不同的数据库系统，以及多种索引机制帮助检索数据。这篇我们就来讨论几种常见的数据存储和索引机制，主要是B-tree，LSM-Tree，以及它们对应的优缺点。顺序存储与哈希索引

2020-06-04 22:19:21 536

原创 Spark SQL源码解析（五）SparkPlan准备和执行阶段

Spark SQL原理解析前言：Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述Spark SQL源码解析（二）Antlr4解析Sql并生成树Spark SQL源码解析（三）Analysis阶段分析Spark SQL源码解析（四）Optimization和Physical Planning阶段解析SparkPlan准备阶段介绍前面经过千辛万苦，终于生成可实际执行的SparkPlan（即PhysicalPlan）。但在真正执行前，还需要做一些准备工作，包括在必要的地方插入一些

2020-05-27 18:44:36 580

原创 Spark SQL源码解析（四）Optimization和Physical Planning阶段解析

Spark SQL原理解析前言：Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述Spark SQL源码解析（二）Antlr4解析Sql并生成树Spark SQL源码解析（三）Analysis阶段分析前面已经介绍了SQL parse，将一条SQL语句使用antlr4解析成语法树并使用访问者模式生成Unresolved LogicalPlan，然后是Analysis阶段将Unresolved LogicalPlan转换成Resolved LogicalPlan。这一篇我们介绍Opt

2020-05-14 08:05:18 334

空空如也

空空如也