大数据
文章平均质量分 97
郭俊JasonGuo
这个作者很懒,什么都没留下…
展开
-
Spark 灰度发布在十万级节点上的成功实践 CI CD
Spark 灰度发布在十万级节点上的成功实践 CI CDSpark CI 持续集成实践CI 介绍Spark CI 实践Spark CD 持续交付CD 持续交付介绍Spark CD 持续发布实践方案一:单分支正常流程bug fixhot fixPros.Cons.方案二:两分支正常流程bug fixhot fixPros.Cons.方案三:多分支正常流程bug fixhot fix灰度发布回滚机制P...原创 2018-10-31 08:08:28 · 872 阅读 · 0 评论 -
Spark SQL 性能优化再进一步 CBO 基于代价的优化
本文所述内容均基于 2018年9月17日 Spark 最新 Release 2.3.1 版本。后续将持续更新Spark CBO 背景上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效。它属于 LogicalPlan 的优化,所有优化均基于 LogicalPlan 本身的特点,未考虑数据本身的特点,也未考虑算子本身的代价。本文将介绍 CBO,它充分考虑...原创 2018-09-26 07:38:43 · 2664 阅读 · 3 评论 -
Spark CommitCoordinator 保证数据一致性
原创文章,转载请务必将下面这段话置于文章开头处。本文转发自技术世界,原文链接 http://www.jasongj.com/spark/committer/本文所述内容均基于 2018年9月17日 Spark 最新 Release 2.3.1 版本,以及 hadoop-2.6.0-cdh-5.4.4概述Spark 输出数据到 HDFS 时,需要解决如下问题:由于多个 Task ...原创 2018-09-26 07:34:34 · 773 阅读 · 0 评论 -
Spark SQL / Catalyst 内部原理 与 RBO
原创文章,转载请务必将下面这段话置于文章开头处。 本文转发自技术世界,原文链接 http://www.jasongj.com/spark/rbo/ 本文所述内容均基于 2018年9月10日 Spark 最新 Release 2.3.1 版本。后续将持续更新Spark SQL 架构Spark SQL 的整体架构如下图所示 从上图可见,无论是直接使用 SQL 语句...原创 2018-09-11 07:43:29 · 616 阅读 · 0 评论 -
深入浅出Zookeeper(一) Zookeeper架构及FastLeaderElection机制
本文介绍了Zookeeper的架构,并组合实例分析了原子广播(ZAB)协议的原理,包括但不限于Zookeeper的读写流程,FastLeaderElection算法的原理,ZAB如何保证Leader Failover过程中的数据一致性。原创 2017-11-27 18:49:25 · 1848 阅读 · 1 评论 -
流式处理界的新贵 Kafka Stream - Kafka设计解析(七)
本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。并且分析了Kafka Stream如何解决流式系统中的关键问题,如时间定义,窗口操作,Join操作,聚合操作,以及如何处理乱序和提供容错能力。最后结合示例讲解了如何使用Ka原创 2017-11-27 09:29:12 · 6601 阅读 · 0 评论 -
Kafka设计解析(八)- Exactly Once语义与事务机制原理
本文介绍了Kafka实现事务性的几个阶段——正好一次语义与原子操作。之后详细分析了Kafka事务机制的实现原理,并介绍了Kafka如何处理事务相关的异常情况,如Transaction Coordinator宕机。最后介绍了Kafka的事务机制与PostgreSQL的MVCC以及Zookeeper的原子广播实现事务的异同转载 2017-11-28 21:38:43 · 1153 阅读 · 0 评论 -
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。原创 2017-03-06 06:45:02 · 2880 阅读 · 1 评论 -
Kafka深度解析
介绍Kafka背景,使用消息系统的优势,常用消息系统对比,Kafka架构介绍,Kafka实现语义分析,Replication及Leader Election机制剖析,Consumer Group Rebalance实现原理介绍,以及Benchmark测试。原创 2016-02-29 21:29:35 · 1113 阅读 · 0 评论 -
Kafka设计解析(三)- Kafka High Availability (下)
本文在上篇文章基础上,更加深入讲解了Kafka的HA机制,主要阐述了HA相关各种场景,如Broker failover,Controller failover,Topic创建/删除,Broker启动,Follower从Leader fetch数据等详细处理过程。同时介绍了Kafka提供的与Replication相关的工具,如重新分配Partition等。原创 2015-06-09 09:48:02 · 1939 阅读 · 0 评论 -
Kafka设计解析(四)- Kafka Consumer设计解析
本文主要介绍了Kafka High Level Consumer,Consumer Group,Consumer Rebalance,Low Level Consumer实现的语义,以及适用场景。以及未来版本中对High Level Consumer的重新设计--使用Consumer Coordinator解决Split Brain和Herd等问题。原创 2015-11-20 09:28:03 · 934 阅读 · 0 评论 -
Kafka设计解析(五)- Kafka性能测试方法及Benchmark报告
本文详细阐述了Kafka的性能测试方法,并全面展示了Kafka各组件的性能测试报告。原创 2016-01-04 19:58:01 · 1890 阅读 · 0 评论 -
kafka
【原创声明】本文属作者原创,已授权InfoQ中文站首发,转载请务必在文章开头标明出自“Jason's Blog”,并附上原文链接http://www.jasongj.com/2015/06/08/KafkaColumn3/同时欢迎关注作者微信公众号【大数据架构】摘要 本文在上篇文章基础上,更加深入讲解了Kafka的HA机制,主要阐述了HA相关各种场景,如Broker fail...原创 2015-06-08 21:33:18 · 234 阅读 · 0 评论