代立冬的数据之路

专注数据架构 外功修行,内功修神

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

本文为博主公司原创文章,仿冒必究,转载请回复留言 开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum) 易观CTO 郭炜 序 现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark...

2019-01-21 10:47:05

阅读数 17474

评论数 1

大数据调度--有向无环图(DAG)之拓扑排序

拓扑排序(Topological Sorting) 维基百科上拓扑排序的定义为: 对于任何有向无环图(DAG)而言,其拓扑排序为其所有结点的一个线性排序(同一个有向图可能存在多个这样的结点排序)。该排序满足这样的条件——对于图中的任意两个结点U和V,若存在一条有向边从U指向V,则在拓扑排序中U一定...

2019-01-20 22:47:02

阅读数 218

评论数 1

大数据分析的下一代架构--IOTA架构设计实践[下]

IOTA架构提出背景 大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下: Lambda架构的核心思想是: 数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平...

2018-12-31 20:59:53

阅读数 1186

评论数 0

EasyScheduler大数据调度系统架构分享

EasyScheduler大数据调度系统架构分享 导语 EasyScheduler是易观平台自主研发的大数据分布式调度系统。主要解决数据研发ETL 错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支...

2018-12-13 20:01:57

阅读数 669

评论数 5

HBase之Rowkey设计总结及易观方舟实战篇

一、引言 HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中...

2018-06-02 21:52:46

阅读数 1913

评论数 3

大数据分析的下一代架构--IOTA架构[上]

IOTA是什么?你是否为下一代大数据架构做好准备?   经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。 ▌Lambda架构 在过去Lambda数据架构成为每...

2018-04-22 07:37:51

阅读数 3232

评论数 0

HBase并行写机制(mvcc)

HBase在保证高性能的同时,为用户提供了便于理解的一致性数据模型MVCC (Multi Version Concurrency Control),即多版本并发控制技术,把数据库的行锁与行的多个版本结合起来,从而去提高数据库系统的并发性能。 要理解mvcc,首先需知道为什么需要进行并发控制,我们...

2015-02-15 18:33:37

阅读数 39608

评论数 1

Excel表格转换为MarkDown表格工具

功能十分强大:https://tableconvert.com/ 还可以下载下来,真是很棒!

2019-03-18 22:49:49

阅读数 11

评论数 0

留存分析为何要做, 如何做

导读 留存,是指用户在 App、网站等应用上使用过,并一段时间后仍有使用。留存分析模型是一种衡量用户健康度/参与度的方法,超越下载量、DAU 等这样的虚荣指标,深入了解用户的留存和流失状况,发现影响产品可持续增长的关键因素,指导市场决策、产品改进、提升用户价值等等。 ▌留存分析能解决哪些问...

2019-03-16 20:51:53

阅读数 17

评论数 0

易观推出免费版本方舟Argo,同时开源SDK及调度

易观推出了免费版本方舟Argo,Argo是国内唯一的一款免费的可以私有化部署的用户行为分析平台,可以私有化对接自己的各种内部系统,它的商业版本已经在招商银行、当当、首汽等客户大面积使用了。 别人都是免费版到商业版,我们是先做商业版在做靠谱的免费版,初心真的是想把数据能力平民化,同时配合数据采集SD...

2019-03-01 23:02:37

阅读数 431

评论数 0

Apache Curator中的Connection Guarantees(连接保证)

Curator不断监控与ZooKeeper集合的连接。此外,每个操作都包含有重试机制。因此,可以做出以下保证: 每个Curator操作都会好好的等待,直到与ZooKeeper建立连接 每个Curator操作(create,getData等)都保证按照当前设置的重试策略管理连接丢失和会话过期 ...

2019-02-24 23:24:02

阅读数 589

评论数 0

我关注的一些技术微信公众号

AI前线 微信号: ai-front InfoQ 微信号: infoqchina CSDN 微信号: CSDNnews 开源中国 微信号:oschina2013 AI科技大本营 微信号: rgznai100 美团技术团队 (ID:meituantech) Dat...

2019-02-21 15:46:19

阅读数 25

评论数 0

在公有云实现分布式系统上千节点功能测试?Alluxio团队基于Docker的模拟方案和经验总结

01 摘要 对分布式系统进行大规模测试通常是一个昂贵但又必要的流程。由于世界上很多公司和机构都依赖Alluxio技术,我们非常重视Alluxio的测试。因此,我们需要解决的一个问题是如何在不耗尽资源的情况下进行大规模测试。在本博客中,我们将展示Alluxio开源项目的开发维护者如何利用公有云基础设...

2019-02-14 14:13:04

阅读数 142

评论数 0

Mac使用vnc远程登录ubuntu16.04桌面

mac使用vnc远程登录ubuntu16.04桌面 1.安装 在Ubuntu上安装x11vnc,如下: sudo apt-get install x11vnc 2.配置vnc密码 x11vnc -storepasswd 3.启动vnc服务 x11vnc -forever -shared -rfba...

2019-01-23 15:22:00

阅读数 259

评论数 0

2019.01.12 Presto中国区用户线下Meetup

2019.01.12号,我们邀请Presto原创团队莅临中国,带来关于Presto的最新feature和roadmap动态,也邀请国内的Presto前沿公司兄弟分享实践干货,期待各位朋友的参加: 活动地点:北京 朝阳区绿地中心B座10层 盖亚互娱 乌月神殿 活动时间:2019年1月12日 14:...

2019-01-13 12:38:37

阅读数 157

评论数 0

HDFS中的内存存储支持

因工作中olap场景中对性能的极致要求,我们将部分业务数据的hdfs路径的存储策略设置为放在内存中(RAM_DISK)中,这是在hadoop2.6以后的版本支持的。抽空翻译了官网的文章 HDFS中的内存存储支持 介绍 管理员配置 限制副本使用的内存 在数据节点上设置RAM磁盘 选择tm...

2019-01-10 00:03:37

阅读数 1299

评论数 3

如何建立数据思维

数据思维是新手和老手的分界线(之一) 作为数据PM,不管是初入行还是处于打怪中间态,都需要建立数据思维,从实战经验来看,数据思维也是区分一般数据PM和高阶数据PM的分界线之一。我刚入行时,做广告商业产品,遇到一个case让我见识到了产品老大的数据思维。对于广告部门而言,收入是KPI,每天的广告收入...

2019-01-02 22:33:55

阅读数 540

评论数 0

如何定义数据指标

数据指标的定义,是培养数据思维要闯的第一道关。比如常见的以下指标定义: 1、激活,如何定义一个激活? 下载、安装并打开APP的用户数?我们暂且这么定义。根据定义,下载没安装或者安装没打开的用户,都不计入激活。只有完成所有步骤的用户才算。但是问题来了,一个用户下载、安装并打开APP时,根本没登录,他...

2019-01-02 22:20:30

阅读数 403

评论数 1

spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图: 这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/...

2018-12-22 17:55:47

阅读数 182

评论数 0

数据分析指标名词解释

数据分析指标名词解释 名词解释 维度 指人们分析事物的角度。比如,分析活跃用户,可以从时间的维度,也可以从地域的维度去看,也可以时间、地域两个维度组合去分析。 有层次关系的维度,就可以根据分析需求改变维的层次,变换分析的粒度钻取,比如分析活跃用户,从地域这个维度类型上,可以细分到省份、城市、...

2018-12-21 22:23:07

阅读数 759

评论数 1

提示
确定要删除当前文章?
取消 删除