大数据实战系列
文章平均质量分 92
着重实战、原理等方面
代立冬
StayHungryStayFoolish外功修行内功修神
展开
-
Apache DolphinScheduler 1.2.1发布,可视化工作流任务调度系统
Apache DolphinScheduler 1.2.1发布,可视化工作流任务调度系统Apache DolphinScheduler 于2020年2月24日正式发布 1.2.1 版,发布内容如下:新特性:[#1497] 通过 API 创建的工作流在前端展示时自动调整布局。 [#747] Worker server 运行日志脱敏。 [#1635] 配置文件适当合并。 [#154...原创 2020-02-25 12:21:43 · 4931 阅读 · 5 评论 -
Apache ShardingSphere & DolphinScheduler将举行联合meetup
您是否想加入Apache社区并成为某个项目的Committer或PPMC,拥有一个apache邮箱呢?你是否知道apache社区的Committer也可以是非代码贡献者?本联合meetup旨在让对开源有兴趣的伙伴们有机会加入到社区中来,成为一份子,让自己的青春热血留下永久痕迹,让自己的代码(或者文档、或者issue等)才华绽放出璀璨的光芒!活动介绍如今,开源在中国遍地开花,开源之势不可挡,...原创 2019-11-24 22:44:22 · 781 阅读 · 0 评论 -
大数据工作流任务调度--有向无环图(DAG)之拓扑排序
拓扑排序(Topological Sorting)维基百科上拓扑排序的定义为:对于任何有向无环图(DAG)而言,其拓扑排序为其所有结点的一个线性排序(同一个有向图可能存在多个这样的结点排序)。该排序满足这样的条件——对于图中的任意两个结点U和V,若存在一条有向边从U指向V,则在拓扑排序中U一定出现在V前面。通俗来讲:拓扑排序是一个有向无环图(DAG)的所有顶点的线性序列, 该序列必须满足两个...原创 2019-01-20 22:47:02 · 7292 阅读 · 2 评论 -
大数据分析的下一代架构--IOTA架构设计实践[下]
IOTA架构提出背景大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下:Lambda架构的核心思想是:数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平台,去计算实时的一些指标;另一条线进入批量数据处理离线计算平台,去计算T+1的相关业务指标,这些指标需...原创 2018-12-31 20:59:53 · 5018 阅读 · 0 评论 -
HBase之Rowkey设计总结及易观方舟实战篇
一、引言HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,...原创 2018-06-02 21:52:46 · 6444 阅读 · 2 评论 -
Apache Flume - File通道设计
原文链接:https://blogs.apache.org/flume/entry/apache_flume_filechannel说明:翻译在尽量符合原文表达的基础上,尽量保证行文流畅。水平有限,请多指正!这篇文章是关于Flume FileChannel的。Flume是为高效收集聚合大量日志数据设计的可靠的、可用的分布式系统。它有一个基于流式数据流的简单灵活的体系。它提供了可控的翻译 2014-02-10 18:49:38 · 41572 阅读 · 2 评论 -
hbase的Region分裂代码分析
region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种实现并无多大差异。转载请注明出处:http://blog.csdn.net/odailidong/article/details/42217439原创 2014-12-28 20:25:48 · 8862 阅读 · 1 评论 -
HBase并行写机制(mvcc)
HBase在保证高性能的同时,为用户提供了便于理解的一致性数据模型MVCC (Multi Version Concurrency Control),即多版本并发控制技术,把数据库的行锁与行的多个版本结合起来,从而去提高数据库系统的并发性能。要理解mvcc,首先需知道为什么需要进行并发控制,我们知道关系型数据库一般都提供了跨越所有数据的ACID特性,为了性能考虑,HBase只提供了基于单行的AC...原创 2015-02-15 18:33:37 · 41639 阅读 · 1 评论 -
Hbase万亿级存储性能优化总结
转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41794403一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。原创 2014-12-07 23:49:30 · 17434 阅读 · 14 评论 -
Spark实战
01.Spark简介(Spark VS MapReduce)02.Spark生态系统03.Scala集合简介04.spark的关键组件05.核心概念:弹性分布式数据集06.RDD的操作(转换(transformation)动作(actions))07.RDD依赖08.Wordcount例子09. 提交job10.编程接口11.Spark运行架构12.Spark SQL13.SparkStreaming14.练习题15.延伸原创 2015-06-24 16:07:05 · 28536 阅读 · 8 评论 -
第三届易观算法大赛 -- OLAP Session分析(5万奖金)
OLAP Session分析赛题背景 Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属...原创 2019-09-11 19:35:47 · 808 阅读 · 0 评论 -
全票通过!易观开源项目DolphinScheduler进入Apache孵化器
全票通过!易观开源项目DolphinScheduler进入Apache孵化器美国时间2019年8月29日,易观开源的分布式任务调度引擎DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目!根据Apache基金会邮件列表显示,在包含11个约...原创 2019-09-17 07:26:30 · 5494 阅读 · 2 评论