集成开发环境-大数据开发平台的门户

全家桶,来一份?...
阅读(160) 评论(0)

日志采集与用户行为链路跟踪

日志采集这部分内容,其实在上一篇文章 阿里巴巴大数据实践-读书笔记 里面多多少少已经提到了一些。不过正如前文提到的,这部分内容,从技术的角度来说,未必有多么高深,但是从业务角度来说,要做到完善却也很难,特别是在分析用户行为链路的场景下,所以这篇专门来讨论一下这一块的内容。...
阅读(125) 评论(0)

阿里巴巴大数据实践-读书笔记

大数据之路-阿里巴巴大数据实践 读书笔记...
阅读(326) 评论(0)

那些年,我们迁移过的大数据集群

大数据集群迁移这件事,不知道有多少同学做过。我说的不是把一个集群的数据备份到另一个集群上。我指的是整个数据平台与大数据相关的所有集群及业务的迁移工作,从一个机房到另一个机房。这事,我们已经做了三次了。。。...
阅读(3265) 评论(5)

数据可视化平台理论与实践

前面说完了大数据开发平台的核心组件,作业调度系统,接下来讨论一下大数据开发平台的脸面之一,数据可视化平台。...
阅读(3420) 评论(6)

数据平台作业调度系统详解-实践篇

上一篇文章,讨论了作业调度系统的分类,流派,架构实现方案和各种方案的优缺点以及适用场景,最后还简单总结了理想中,一个完备的工作流作业调度系统,应该具备哪些功能特性。但是,纸上得来终觉浅,绝知此事要躬行。实践才是硬道理。我司刚巧在开发工作流作业调度系统这块有一些实践经验,所以这篇文章来和大家探讨一下过去两年多来,我司Jarvis调度系统的产品功能定位,架构实现以及经验教训。...
阅读(696) 评论(5)

数据平台作业调度系统详解-理论篇

前面放完建设四个现代化大数据平台乌托邦理想的大卫星,接下来的文章得谈谈具体组件的生产大跃进了。第一篇,先来讨论一下大数据开发平台的核心组件之一:作业调度系统。作业调度系统是一个相对复杂的系统,涉及的内容繁杂,针对的场景多种多样,实现的方案千差万别。本文重点谈理论,会先从大的场景划分的角度对市面上的各种调度系统进行分类讨论,然后再针对具体的作业调度系统,探讨一下各自的优缺点...
阅读(298) 评论(0)

谷歌DataFlow编程模型以及Spark/Flink/StreamCQL的相关实现

流式计算框架编程接口的标准化,傻瓜化,SQL化,自打谷歌发表Dataflow编程模型的Paper起,就有走上台面的趋势。各家计算框架都开始认真考虑相关的问题,俨然成为大家竞争的热点方向。在过去一年多的时间里,Beam/Flink/Spark在这方面的努力和相关工作也逐渐落地成熟,实际线上成熟应用的日子看起来指日可待了。 所以,翻出一年多前阅读DataFlow Paper的旧文,更新一下部分过时信息...
阅读(1466) 评论(1)

分布式一致性协议Raft,以及难搞的Paxos

分布式一致性协议Raft & Paxos 简单 v.s. 完美...
阅读(395) 评论(0)

“王者荣耀”与大数据平台的产品化思想

以“荣耀”的名义...
阅读(707) 评论(0)

如何构建用户满意的“服务化”数据平台

同志们辛苦了,为人民服务~...
阅读(1629) 评论(1)

为建设四个现代化的大数据平台奋斗终身

所以,你要问,做为大数据务虚系列文章的第一篇,就想搞个大新闻,放一个有中国特色的四个现代化的社会主义大数据平台的卫星么?...
阅读(428) 评论(0)

开个公众号 大数据务虚杂谈 ;)

开个公众号: 大数据务虚杂谈...
阅读(315) 评论(0)

简约至上-读书笔记

《简约至上》的内容,可能平时我们自己或多或少也有些体会,但是否足够重视,是否真的认可它的重要性,是否把它们作为出发点和基本原则,贯彻到所做的每一件事情中去。而非景上添花,可有可无的后续改进目标,可能才是看完书以后需要时刻提醒自己的。...
阅读(420) 评论(0)

关于产品,服务,项目开发的碎碎念

鸡汤这玩意,看着有理,但知易行难,如果不实践,或者没有切身体会,,再多都是陈词滥调。...
阅读(456) 评论(0)

RC ORC Parquet 格式比较和性能测试

RC ORC Parquet 格式比较和性能测试作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/为什么要比较这三者为什么要比较,起因是为了提高Hadoop集群的存储和计算效率,尤其是离线Hive作业的效率,为什么比较的是这三者,是因为三者是目前Hive离线作业中正在大规模使用或...
阅读(4039) 评论(0)

谷歌Dataflow编程模型和spark 2.0 structured streaming

主要介绍一下Dataflow编程模型的基本思想,再简单比较一下spark 2.0 structured streaming的编程模型...
阅读(4406) 评论(3)

KUDU - Cloudera开发的又一个Hadoop系存储系统

Kudu是Todd Lipcon@Cloudera带头开发的存储系统,其整体应用模式和HBase比较接近,即支持行级别的随机读写,并支持批量顺序检索功能。定位于应对快速变化数据的快速分析型数据仓库,希望靠系统自身能力,支撑起同时需要高吞吐率的顺序和随机读写的应用场景(可能的场景,比如时间序列数据分析,日志数据实时监控分析),提供一个介于HDFS和HBase的性能特点之间的一个系统,在随机读写和批量扫描之间找到一个平衡点,并保障稳定可预测的响应延迟...
阅读(13533) 评论(5)

Mesa - 谷歌近实时分析型数据仓库

Mesa并不是一个从底层开始重新构建的系统,它依托Colossus提供分布式数据存储服务,依托Bigtable做元数据存储。使用MapReduce进行批量数据处理工作。之所以能实现它所声称的这些底层系统所不具备的综合能力(高一致性+原子更新+低延时+近实时+海量吞吐率),其原因还是因为它针对了广告数据的应用场景,采用了各种类似系统的最佳实践和一些特定的Tradeoff策略...
阅读(4616) 评论(1)

快速理解 Omid: Yahoo在HBase上的分布式事务方案

OMID是Yahoo构建在HBase上的一个分布式事务解决方案,用来拓展HBase所不支持跨行跨表级别的事务。其定位目标是OLTP类型的事务。类似的系统也有不少,他们或多或少都借鉴了谷歌的Percolator的思想,而omid则有较大的区别,具体区别在哪,下文详细分析。...
阅读(4142) 评论(1)
113条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1188708次
    • 积分:9116
    • 等级:
    • 排名:第2112名
    • 原创:113篇
    • 转载:0篇
    • 译文:0篇
    • 评论:186条
    博客专栏
    最新评论
    统计