大数据实战系列
着重实战、原理等方面
-
原
EasyScheduler大数据调度系统架构分享
EasyScheduler大数据调度系统架构分享 导语 EasyScheduler是易观平台自主研发的大数据分布式调度系统。主要解决数据研发ETL 错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。 背景 任务调度系统在大数据平台当中是一个核心的...2018-12-13 20:01:57 阅读数:460 评论数:4 -
原
大数据调度--有向无环图(DAG)之拓扑排序
拓扑排序(Topological Sorting) 维基百科上拓扑排序的定义为: 对于任何有向无环图(DAG)而言,其拓扑排序为其所有结点的一个线性排序(同一个有向图可能存在多个这样的结点排序)。该排序满足这样的条件——对于图中的任意两个结点U和V,若存在一条有向边从U指向V,则在拓扑排序中U一定出现在V前面。 通俗来讲:拓扑排序是一个有向无环图(DAG)的所有顶点的线性序列, 该序列必须满足两个...2019-01-20 22:47:02 阅读数:156 评论数:1 -
原
大数据分析的下一代架构--IOTA架构设计实践[下]
IOTA架构提出背景 大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下: Lambda架构的核心思想是: 数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平台,去计算实时的一些指标;另一条线进入批量数据处理离线计算平台,去计算T+1的相关业务指标,这些指标需...2018-12-31 20:59:53 阅读数:994 评论数:0 -
原
大数据分析的下一代架构--IOTA架构[上]
IOTA是什么?你是否为下一代大数据架构做好准备? 经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。 ▌Lambda架构 在过去Lambda数据架构成为每一个公司大数据平台必备的架构,它解决了一个公司大数据批量离线处理和实时数据处理的需求。一个典型的Lam...2018-04-22 07:37:51 阅读数:2837 评论数:0 -
原
HBase之Rowkey设计总结及易观方舟实战篇
一、引言 HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,...2018-06-02 21:52:46 阅读数:1819 评论数:3 -
译
Apache Flume - File通道设计
原文链接:https://blogs.apache.org/flume/entry/apache_flume_filechannel 说明:翻译在尽量符合原文表达的基础上,尽量保证行文流畅。水平有限,请多指正! 这篇文章是关于Flume FileChannel的。Flume是为高效收集聚合大量日志数据设计的可靠的、可用的分布式系统。它有一个基于流式数据流的简单灵活的体系。它提供了可控的2014-02-10 18:49:38 阅读数:40654 评论数:2 -
原
hbase的Region分裂代码分析
region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种实现并无多大差异。转载请注明出处:http://blog.csdn.net/odailidong/article/details/422174392014-12-28 20:25:48 阅读数:7851 评论数:1 -
原
HBase并行写机制(mvcc)
HBase在保证高性能的同时,为用户提供了便于理解的一致性数据模型MVCC (Multi Version Concurrency Control),即多版本并发控制技术,把数据库的行锁与行的多个版本结合起来,从而去提高数据库系统的并发性能。 要理解mvcc,首先需知道为什么需要进行并发控制,我们知道关系型数据库一般都提供了跨越所有数据的ACID特性,为了性能考虑,HBase只提供了基于单行的AC...2015-02-15 18:33:37 阅读数:39561 评论数:1 -
原
Hbase万亿级存储性能优化总结
转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41794403 一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。2014-12-07 23:49:30 阅读数:12783 评论数:12 -
原
Spark实战
01.Spark简介(Spark VS MapReduce) 02.Spark生态系统 03.Scala集合简介 04.spark的关键组件 05.核心概念:弹性分布式数据集 06.RDD的操作(转换(transformation)动作(actions)) 07.RDD依赖 08.Wordcount例子 09. 提交job 10.编程接口 11.Spark运行架构 12.Spark SQL 13.SparkStreaming 14.练习题 15.延伸2015-06-24 16:07:05 阅读数:27775 评论数:8