数据平台作业调度系统详解-理论篇

前面放完建设四个现代化大数据平台乌托邦理想的大卫星,接下来的文章得谈谈具体组件的生产大跃进了。第一篇,先来讨论一下大数据开发平台的核心组件之一:作业调度系统。作业调度系统是一个相对复杂的系统,涉及的内容繁杂,针对的场景多种多样,实现的方案千差万别。本文重点谈理论,会先从大的场景划分的角度对市面上的各种调度系统进行分类讨论,然后再针对具体的作业调度系统,探讨一下各自的优缺点...
阅读(25) 评论(0)

谷歌DataFlow编程模型以及Spark/Flink/StreamCQL的相关实现

流式计算框架编程接口的标准化,傻瓜化,SQL化,自打谷歌发表Dataflow编程模型的Paper起,就有走上台面的趋势。各家计算框架都开始认真考虑相关的问题,俨然成为大家竞争的热点方向。在过去一年多的时间里,Beam/Flink/Spark在这方面的努力和相关工作也逐渐落地成熟,实际线上成熟应用的日子看起来指日可待了。 所以,翻出一年多前阅读DataFlow Paper的旧文,更新一下部分过时信息...
阅读(908) 评论(1)

分布式一致性协议Raft,以及难搞的Paxos

分布式一致性协议Raft & Paxos 简单 v.s. 完美...
阅读(146) 评论(0)

“王者荣耀”与大数据平台的产品化思想

以“荣耀”的名义...
阅读(277) 评论(0)

如何构建用户满意的“服务化”数据平台

同志们辛苦了,为人民服务~...
阅读(1325) 评论(1)

为建设四个现代化的大数据平台奋斗终身

所以,你要问,做为大数据务虚系列文章的第一篇,就想搞个大新闻,放一个有中国特色的四个现代化的社会主义大数据平台的卫星么?...
阅读(276) 评论(0)

开个公众号 大数据务虚杂谈 ;)

开个公众号: 大数据务虚杂谈...
阅读(151) 评论(0)

简约至上-读书笔记

《简约至上》的内容,可能平时我们自己或多或少也有些体会,但是否足够重视,是否真的认可它的重要性,是否把它们作为出发点和基本原则,贯彻到所做的每一件事情中去。而非景上添花,可有可无的后续改进目标,可能才是看完书以后需要时刻提醒自己的。...
阅读(258) 评论(0)

关于产品,服务,项目开发的碎碎念

鸡汤这玩意,看着有理,但知易行难,如果不实践,或者没有切身体会,,再多都是陈词滥调。...
阅读(345) 评论(0)

RC ORC Parquet 格式比较和性能测试

RC ORC Parquet 格式比较和性能测试作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/为什么要比较这三者为什么要比较,起因是为了提高Hadoop集群的存储和计算效率,尤其是离线Hive作业的效率,为什么比较的是这三者,是因为三者是目前Hive离线作业中正在大规模使用或...
阅读(3238) 评论(0)

谷歌Dataflow编程模型和spark 2.0 structured streaming

主要介绍一下Dataflow编程模型的基本思想,再简单比较一下spark 2.0 structured streaming的编程模型...
阅读(3901) 评论(3)

KUDU - Cloudera开发的又一个Hadoop系存储系统

Kudu是Todd Lipcon@Cloudera带头开发的存储系统,其整体应用模式和HBase比较接近,即支持行级别的随机读写,并支持批量顺序检索功能。定位于应对快速变化数据的快速分析型数据仓库,希望靠系统自身能力,支撑起同时需要高吞吐率的顺序和随机读写的应用场景(可能的场景,比如时间序列数据分析,日志数据实时监控分析),提供一个介于HDFS和HBase的性能特点之间的一个系统,在随机读写和批量扫描之间找到一个平衡点,并保障稳定可预测的响应延迟...
阅读(11037) 评论(5)

Mesa - 谷歌近实时分析型数据仓库

Mesa并不是一个从底层开始重新构建的系统,它依托Colossus提供分布式数据存储服务,依托Bigtable做元数据存储。使用MapReduce进行批量数据处理工作。之所以能实现它所声称的这些底层系统所不具备的综合能力(高一致性+原子更新+低延时+近实时+海量吞吐率),其原因还是因为它针对了广告数据的应用场景,采用了各种类似系统的最佳实践和一些特定的Tradeoff策略...
阅读(4169) 评论(1)

快速理解 Omid: Yahoo在HBase上的分布式事务方案

OMID是Yahoo构建在HBase上的一个分布式事务解决方案,用来拓展HBase所不支持跨行跨表级别的事务。其定位目标是OLTP类型的事务。类似的系统也有不少,他们或多或少都借鉴了谷歌的Percolator的思想,而omid则有较大的区别,具体区别在哪,下文详细分析。...
阅读(3723) 评论(1)

Percolator Google的海量数据增量处理系统

Percolator的目标是在海量规模的数据集上提供增量更新的能力,并通过支持分布式的事务来确保增量处理过程的数据一致性和整体系统的可扩展性。...
阅读(3435) 评论(3)

Spark 性能相关参数配置详解-任务调度篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 任务调度篇...
阅读(24256) 评论(9)

Spark 性能相关参数配置详解-压缩与序列化篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 压缩与序列化篇...
阅读(15064) 评论(1)

Spark 性能相关参数配置详解-Storage篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。-storage篇...
阅读(32150) 评论(5)

Spark 性能相关参数配置详解-shuffle篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。...
阅读(20172) 评论(5)

Dryad 微软的分布式运算框架

Dryad的论文是微软早在2007年就发布的,Tez的核心思想来源于Dryad,差不多可以算是Dryad的开源实现吧。最近正好看到几个有趣的项目是基于Tez实现的,于是顺便追本溯源,学习了一下Dryad的理论基础...
阅读(7562) 评论(0)
107条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1135239次
    • 积分:8726
    • 等级:
    • 排名:第2103名
    • 原创:107篇
    • 转载:0篇
    • 译文:0篇
    • 评论:169条
    博客专栏
    最新评论
    统计