colorant的专栏

彩色蚂蚁的博客

排序:
默认
按更新时间
按访问量

如何写好项目规划和方案设计文档

  在工作中,很多时候,我们都需要就一个问题提出一个解决方案,这时候,我们很可能需要产出一个文档来供大家讨论,并指导下一步工作计划。 问题可大可小,形式上是否叫它为一个项目并不重要,重要的是为了解决这个问题,项目规划和方案设计的流程是一致的。就大数据平台构建的语言环境来说,它可以是整个平台...

2018-07-27 09:49:14

阅读数:97

评论数:0

大数据平台基础架构指南

之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了。无耻的推广一下哈 ;) 淘宝,JD都有现货,Amazon貌似还是预售状态中感谢博文视点的@侠少,感谢各位替本书写推荐语软文的朋友们,感谢之前蘑菇街大数据团队的各位小伙伴。目录列表:第1章  大数据平台整体建设思想 11.1  什...

2018-07-07 13:03:39

阅读数:807

评论数:0

Ray - 面向增强学习场景的分布式计算框架

如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:Ray是什么?Ray 是RISELab实验室(前身也就是开发Spark/Mesos等的AMPLab实验室)针对机器学习领域开...

2018-05-23 11:57:02

阅读数:1850

评论数:6

大数据平台-元数据管理系统解析

什么是元数据?在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的...

2018-03-14 09:25:24

阅读数:3063

评论数:3

论一个糟糕的大数据码农的自我修养

幸福的家庭都是一样的,不幸的家庭各有各的不幸 - 如何成为一名糟糕的大数据平台开发工程师?

2017-12-18 17:05:50

阅读数:1284

评论数:1

深入探讨大数据权限管理方案-从哲学到技术

不论是在技术层面还是在产品层面,大数据平台环境下的权限管理工作都是一个让人伤脑筋的烫手山芋,它不仅仅是一个技术问题,还是一个业务问题,甚至还可能是一个人际沟通和权衡利益得失的哲学问题。。。所以,以下内容分两部分展开,先谈哲学问题,再谈技术问题。

2017-11-30 09:49:09

阅读数:3292

评论数:2

大数据开发平台-数据同步服务

同步一切

2017-09-21 13:38:35

阅读数:2757

评论数:0

集成开发环境-大数据开发平台的门户

全家桶,来一份?

2017-09-05 09:24:11

阅读数:2096

评论数:0

日志采集与用户行为链路跟踪

日志采集这部分内容,其实在上一篇文章 阿里巴巴大数据实践-读书笔记 里面多多少少已经提到了一些。不过正如前文提到的,这部分内容,从技术的角度来说,未必有多么高深,但是从业务角度来说,要做到完善却也很难,特别是在分析用户行为链路的场景下,所以这篇专门来讨论一下这一块的内容。

2017-08-22 09:20:23

阅读数:2355

评论数:1

阿里巴巴大数据实践-读书笔记

大数据之路-阿里巴巴大数据实践 读书笔记

2017-08-15 10:05:39

阅读数:1806

评论数:0

那些年,我们迁移过的大数据集群

大数据集群迁移这件事,不知道有多少同学做过。我说的不是把一个集群的数据备份到另一个集群上。我指的是整个数据平台与大数据相关的所有集群及业务的迁移工作,从一个机房到另一个机房。这事,我们已经做了三次了。。。

2017-08-08 09:36:20

阅读数:5235

评论数:5

数据可视化平台理论与实践

前面说完了大数据开发平台的核心组件,作业调度系统,接下来讨论一下大数据开发平台的脸面之一,数据可视化平台。

2017-08-02 09:32:26

阅读数:5918

评论数:6

数据平台作业调度系统详解-实践篇

上一篇文章,讨论了作业调度系统的分类,流派,架构实现方案和各种方案的优缺点以及适用场景,最后还简单总结了理想中,一个完备的工作流作业调度系统,应该具备哪些功能特性。但是,纸上得来终觉浅,绝知此事要躬行。实践才是硬道理。我司刚巧在开发工作流作业调度系统这块有一些实践经验,所以这篇文章来和大家探讨一下...

2017-07-25 09:34:19

阅读数:8543

评论数:7

数据平台作业调度系统详解-理论篇

前面放完建设四个现代化大数据平台乌托邦理想的大卫星,接下来的文章得谈谈具体组件的生产大跃进了。第一篇,先来讨论一下大数据开发平台的核心组件之一:作业调度系统。作业调度系统是一个相对复杂的系统,涉及的内容繁杂,针对的场景多种多样,实现的方案千差万别。本文重点谈理论,会先从大的场景划分的角度对市面上的...

2017-07-13 18:50:32

阅读数:2047

评论数:1

谷歌DataFlow编程模型以及Spark/Flink/StreamCQL的相关实现

流式计算框架编程接口的标准化,傻瓜化,SQL化,自打谷歌发表Dataflow编程模型的Paper起,就有走上台面的趋势。各家计算框架都开始认真考虑相关的问题,俨然成为大家竞争的热点方向。在过去一年多的时间里,Beam/Flink/Spark在这方面的努力和相关工作也逐渐落地成熟,实际线上成熟应用的...

2017-07-11 11:24:09

阅读数:4267

评论数:2

分布式一致性协议Raft,以及难搞的Paxos

分布式一致性协议Raft & Paxos 简单 v.s. 完美

2017-06-29 13:47:21

阅读数:1857

评论数:0

“王者荣耀”与大数据平台的产品化思想

以“荣耀”的名义

2017-06-21 12:30:32

阅读数:1942

评论数:0

如何构建用户满意的“服务化”数据平台

同志们辛苦了,为人民服务~

2017-06-13 12:29:33

阅读数:2218

评论数:1

为建设四个现代化的大数据平台奋斗终身

所以,你要问,做为大数据务虚系列文章的第一篇,就想搞个大新闻,放一个有中国特色的四个现代化的社会主义大数据平台的卫星么?

2017-06-08 18:42:27

阅读数:862

评论数:1

开个公众号 大数据务虚杂谈 ;)

开个公众号: 大数据务虚杂谈

2017-06-02 22:44:26

阅读数:675

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭