自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

colorant的专栏

彩色蚂蚁的博客

原创 如何写好项目规划和方案设计文档

  在工作中,很多时候,我们都需要就一个问题提出一个解决方案,这时候,我们很可能需要产出一个文档来供大家讨论,并指导下一步工作计划。 问题可大可小,形式上是否叫它为一个项目并不重要,重要的是为了解决这个问题,项目规划和方案设计的流程是一致的。就大数据平台构建的语言环境来说,它可以是整个平台...

2018-07-27 09:49:14 42645 6

原创 大数据平台基础架构指南

之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了。无耻的推广一下哈 ;) 淘宝,JD都有现货,Amazon貌似还是预售状态中感谢博文视点的@侠少,感谢各位替本书写推荐语软文的朋友们,感谢之前蘑菇街大数据团队的各位小伙伴。目录列表:第1章  大数据平台整体建设思想 11.1  什...

2018-07-07 13:03:39 12014 1

原创 Ray - 面向增强学习场景的分布式计算框架

如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:Ray是什么?Ray 是RISELab实验室(前身也就是开发Spark/Mesos等的AMPLab实验室)针对机器学习领域开...

2018-05-23 11:57:02 6205 6

原创 大数据平台-元数据管理系统解析

什么是元数据?在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的...

2018-03-14 09:25:24 31168 7

原创 论一个糟糕的大数据码农的自我修养

幸福的家庭都是一样的,不幸的家庭各有各的不幸 - 如何成为一名糟糕的大数据平台开发工程师?

2017-12-18 17:05:50 2376 1

原创 深入探讨大数据权限管理方案-从哲学到技术

不论是在技术层面还是在产品层面,大数据平台环境下的权限管理工作都是一个让人伤脑筋的烫手山芋,它不仅仅是一个技术问题,还是一个业务问题,甚至还可能是一个人际沟通和权衡利益得失的哲学问题。。。所以,以下内容分两部分展开,先谈哲学问题,再谈技术问题。

2017-11-30 09:49:09 10590 3

原创 大数据开发平台-数据同步服务

同步一切

2017-09-21 13:38:35 14116 0

原创 集成开发环境-大数据开发平台的门户

全家桶,来一份?

2017-09-05 09:24:11 4712 0

原创 日志采集与用户行为链路跟踪

日志采集这部分内容,其实在上一篇文章 阿里巴巴大数据实践-读书笔记 里面多多少少已经提到了一些。不过正如前文提到的,这部分内容,从技术的角度来说,未必有多么高深,但是从业务角度来说,要做到完善却也很难,特别是在分析用户行为链路的场景下,所以这篇专门来讨论一下这一块的内容。

2017-08-22 09:20:23 10962 1

原创 阿里巴巴大数据实践-读书笔记

大数据之路-阿里巴巴大数据实践 读书笔记

2017-08-15 10:05:39 2974 1

原创 那些年,我们迁移过的大数据集群

大数据集群迁移这件事,不知道有多少同学做过。我说的不是把一个集群的数据备份到另一个集群上。我指的是整个数据平台与大数据相关的所有集群及业务的迁移工作,从一个机房到另一个机房。这事,我们已经做了三次了。。。

2017-08-08 09:36:20 8507 6

原创 数据可视化平台理论与实践

前面说完了大数据开发平台的核心组件,作业调度系统,接下来讨论一下大数据开发平台的脸面之一,数据可视化平台。

2017-08-02 09:32:26 16948 6

原创 数据平台作业调度系统详解-实践篇

上一篇文章,讨论了作业调度系统的分类,流派,架构实现方案和各种方案的优缺点以及适用场景,最后还简单总结了理想中,一个完备的工作流作业调度系统,应该具备哪些功能特性。但是,纸上得来终觉浅,绝知此事要躬行。实践才是硬道理。我司刚巧在开发工作流作业调度系统这块有一些实践经验,所以这篇文章来和大家探讨一下...

2017-07-25 09:34:19 21350 11

原创 数据平台作业调度系统详解-理论篇

前面放完建设四个现代化大数据平台乌托邦理想的大卫星,接下来的文章得谈谈具体组件的生产大跃进了。第一篇,先来讨论一下大数据开发平台的核心组件之一:作业调度系统。作业调度系统是一个相对复杂的系统,涉及的内容繁杂,针对的场景多种多样,实现的方案千差万别。本文重点谈理论,会先从大的场景划分的角度对市面上的...

2017-07-13 18:50:32 6156 6

原创 谷歌DataFlow编程模型以及Spark/Flink/StreamCQL的相关实现

流式计算框架编程接口的标准化,傻瓜化,SQL化,自打谷歌发表Dataflow编程模型的Paper起,就有走上台面的趋势。各家计算框架都开始认真考虑相关的问题,俨然成为大家竞争的热点方向。在过去一年多的时间里,Beam/Flink/Spark在这方面的努力和相关工作也逐渐落地成熟,实际线上成熟应用的...

2017-07-11 11:24:09 6259 3

原创 分布式一致性协议Raft,以及难搞的Paxos

分布式一致性协议Raft & Paxos 简单 v.s. 完美

2017-06-29 13:47:21 6297 0

原创 “王者荣耀”与大数据平台的产品化思想

以“荣耀”的名义

2017-06-21 12:30:32 2885 0

原创 如何构建用户满意的“服务化”数据平台

同志们辛苦了,为人民服务~

2017-06-13 12:29:33 2968 1

原创 为建设四个现代化的大数据平台奋斗终身

所以,你要问,做为大数据务虚系列文章的第一篇,就想搞个大新闻,放一个有中国特色的四个现代化的社会主义大数据平台的卫星么?

2017-06-08 18:42:27 1209 1

原创 开个公众号 大数据务虚杂谈 ;)

开个公众号: 大数据务虚杂谈

2017-06-02 22:44:26 1101 0

原创 简约至上-读书笔记

《简约至上》的内容,可能平时我们自己或多或少也有些体会,但是否足够重视,是否真的认可它的重要性,是否把它们作为出发点和基本原则,贯彻到所做的每一件事情中去。而非景上添花,可有可无的后续改进目标,可能才是看完书以后需要时刻提醒自己的。

2017-01-19 15:51:37 1379 0

原创 关于产品,服务,项目开发的碎碎念

鸡汤这玩意,看着有理,但知易行难,如果不实践,或者没有切身体会,,再多都是陈词滥调。

2016-12-28 17:05:23 762 0

原创 RC ORC Parquet 格式比较和性能测试

RC ORC Parquet 格式比较和性能测试作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/为什么要比较这三者为什么要比较,起因是为了提高Hadoop集群的存储和计算效率...

2016-12-16 21:48:37 11612 1

原创 谷歌Dataflow编程模型和spark 2.0 structured streaming

主要介绍一下Dataflow编程模型的基本思想,再简单比较一下spark 2.0 structured streaming的编程模型

2016-08-09 16:35:05 7570 4

原创 KUDU - Cloudera开发的又一个Hadoop系存储系统

Kudu是Todd Lipcon@Cloudera带头开发的存储系统,其整体应用模式和HBase比较接近,即支持行级别的随机读写,并支持批量顺序检索功能。定位于应对快速变化数据的快速分析型数据仓库,希望靠系统自身能力,支撑起同时需要高吞吐率的顺序和随机读写的应用场景(可能的场景,比如时间序列数据分...

2016-03-04 15:47:25 24556 5

原创 Mesa - 谷歌近实时分析型数据仓库

Mesa并不是一个从底层开始重新构建的系统,它依托Colossus提供分布式数据存储服务,依托Bigtable做元数据存储。使用MapReduce进行批量数据处理工作。之所以能实现它所声称的这些底层系统所不具备的综合能力(高一致性+原子更新+低延时+近实时+海量吞吐率),其原因还是因为它针对了广告...

2016-03-03 14:25:37 9012 1

原创 快速理解 Omid: Yahoo在HBase上的分布式事务方案

OMID是Yahoo构建在HBase上的一个分布式事务解决方案,用来拓展HBase所不支持跨行跨表级别的事务。其定位目标是OLTP类型的事务。类似的系统也有不少,他们或多或少都借鉴了谷歌的Percolator的思想,而omid则有较大的区别,具体区别在哪,下文详细分析。

2015-08-05 14:02:34 5554 1

原创 Percolator Google的海量数据增量处理系统

Percolator的目标是在海量规模的数据集上提供增量更新的能力,并通过支持分布式的事务来确保增量处理过程的数据一致性和整体系统的可扩展性。

2015-08-04 08:53:40 6987 3

原创 Spark 性能相关参数配置详解-任务调度篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 任务调度篇

2014-08-19 14:47:27 33134 9

原创 Spark 性能相关参数配置详解-压缩与序列化篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 压缩与序列化篇

2014-08-19 14:47:15 21218 1

原创 Spark 性能相关参数配置详解-Storage篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。-storage篇

2014-08-19 14:37:49 46338 5

原创 Spark 性能相关参数配置详解-shuffle篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。

2014-08-19 13:48:08 26438 5

原创 Dryad 微软的分布式运算框架

Dryad的论文是微软早在2007年就发布的,Tez的核心思想来源于Dryad,差不多可以算是Dryad的开源实现吧。最近正好看到几个有趣的项目是基于Tez实现的,于是顺便追本溯源,学习了一下Dryad的理论基础

2014-07-08 10:51:33 10350 0

原创 spark internal - 作业调度

作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 在Spark中作业调度的相关类最重要的就是DAGScheduler,DAGScheduler顾...

2014-04-18 13:19:20 14308 2

原创 Tachyon架构分析和现存问题讨论

作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ Tachyon是AmpLab的Li Haoyuan所开发的一个基于内存的分布式文件系统,出...

2014-03-28 11:32:40 18541 2

原创 Memcached 及 Redis 架构分析和比较

Memcached和Redis作为两种Inmemory的key-value数据库,在设计和思想方面有着很多共通的地方,功能和应用方面在很多场合下(作为分布式缓存服务器使用等) 也很相似,在这里把两者放在一起做一下对比的介绍

2014-03-12 14:27:54 105860 2

原创 快速理解Docker - 容器级虚拟化解决方案

简单的说Docker是一个构建在LXC之上的,基于进程容器(Processcontainer)的轻量级VM解决方案

2014-03-06 09:52:01 228960 14

原创 Spark internal - 多样化的运行模式 (下)

上一篇中介绍了Spark的各种运行模式的基本流程和相关实现,这里主要分析一下各种运行模式中涉及到的一些细节问题的流程和实现

2014-01-21 14:25:54 8687 0

原创 Spark internal - 多样化的运行模式(上)

Spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行。而当以分布式的方式运行在Cluster集群中时,底层的资源调度可以使用Mesos 或者是Hadoop Yarn ,也可以使用Spark自带的Standalone Deploy模式

2014-01-20 10:43:29 16949 0

原创 水推磨轮转-Google的大规模流式处理系统MillWheel

MillWheel的设计目标是提供一个大规模分布式的低延迟流式数据处理框架。和其它的Streaming Processing系统 (e.g. storm) 类似 ,MillWheel的数据处理流程框架基本上就是一个由用户自定义的处理单元(MillWheel里叫computation)按照一定的拓扑...

2013-10-28 15:45:17 8334 1

提示
确定要删除当前文章?
取消 删除