大数据训练营

大数据训练营

浅谈ROLAP、MOLAP和HOLAP区别

对没有使用过数据仓库的人,对这三个概念确实是有点混淆不清。包括我自己本身不是做数据仓库出身,所以实际上是从实践出发,理论基础是有点匮乏的。 一、基本概念 1. OLAP OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、...

2019-05-21 16:44:15

阅读数 18

评论数 0

Kylin优化-Cube裁剪优化(聚合组,联合维度,层级维度,强制维度)

随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hi...

2019-04-02 20:43:38

阅读数 54

评论数 0

权限系统设计模型分析(DAC,MAC,RBAC,ABAC)

此篇文章主要尝试将世面上现有的一些权限系统设计做一下简单的总结分析,个人水平有限,如有错误请不吝指出。 术语 这里对后面会用到的词汇做一个说明,老司机请直接翻到常见设计模式。 用户 发起操作的主体。 对象(Subject) 指操作所针对的客体对象,比如订单数据或图片文件。 权限控制表...

2019-04-01 15:31:22

阅读数 141

评论数 0

Kylin cube构建过程优化

Kylin将Cube构建任务分解为几个依次执行的步骤,这些步骤包括Hive操作、MapReduce操作和其他类型的操作。如果你有很多Cube构建任务需要每天运行,那么你肯定想要减少其中消耗的时间。下文按照Cube构建步骤顺序提供了一些优化经验。 创建Hive的中间平表 这一步将数据从源Hive...

2019-03-28 15:27:23

阅读数 217

评论数 0

Kylin SQL 快速参考 支持JOIN LEFT JOIN操作

Apache Kylin 使用 Apache Calcite 做 SQL 解析和优化。作为一款 OLAP 引擎, Kylin 支持SELECT操作,而不支持其它操作例如INSERT,UPDATE和DELETE,因此 Kylin 的 SQL 语法是 Apache Calcite 支持语法的一个子集。...

2019-03-28 15:10:28

阅读数 158

评论数 0

数仓建模:范式建模+维度建模

范式建模 Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。优势:...

2019-03-28 15:08:11

阅读数 142

评论数 0

MAC IDEA修改git的用户名和密码

问题:GIT账户的密码有更改,导致GIT拉取和提交代码报错 原因:MAC对git用户和密码有记忆功能,记住的是错误的 解决方案:用钥匙串去更改用户名和密码 第一步:找到你的钥匙串的位置 应用程序----实用工具-----双击钥匙串----右上角搜索git------双击登陆-----点...

2019-03-01 21:09:45

阅读数 693

评论数 0

MySQL慢日志简介及Anemometer工具介绍

MySQL 慢日志简介: 原文地址:http://www.fordba.com/box-anemometer-visual-mysql-slow.html MySQL慢日志想必大家或多或少都有听说,主要是用来记录MySQL中长时间执行(超过long_query_time 单位秒),同时exam...

2019-02-01 17:51:47

阅读数 112

评论数 0

HIVE时间操作UDF

日期函数UNIX时间戳转日期函数: from_unixtime语法:   from_unixtime(bigint unixtime[, string format]) 返回值: string 说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前...

2019-01-16 20:55:26

阅读数 128

评论数 0

HDFS高可用以及联邦HDFS集群搭建

阅读目录 HDFS高可用集群搭建 安装步骤: 联邦HDFS集群搭建 回到顶部 HDFS高可用集群搭建 hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA 注意:apache提供的hadoop-2....

2018-12-02 15:23:09

阅读数 116

评论数 0

HDFS 滚动升级,降级,回滚

介绍 HDFS滚动升级可以升级单独的HDFS守护进程. 例如, datanode们可以独立于namenode来升级. 一个namenode也可以独立于其他的namenode们来升级. namenode们也可以独立于datanode们和journal node们升级. 升级 在Hadoop版本...

2018-12-02 14:55:14

阅读数 318

评论数 0

Java 浅析 Thread.join()

概要 本文分为三部分对 Thread.join() 进行分析: 1. join() 的示例和作用 2. join() 源码分析 3. 对网上其他分析 join() 的文章提出疑问   1. join() 的示例和作用 1.1 示例 1 // 父线程 2 public clas...

2018-11-09 00:03:00

阅读数 181

评论数 0

BookKeeper 设计介绍及应用

BookKeeper由yahoo于2009年创建,并在2011年开源。 BookKeeper是一个可靠的日志流记录系统,用于将系统产生的日志(也可以是其他数据)记录在BookKeeper集群上,由BookKeeper这个第三方Storage保证数据存储的可靠和一致性。典型场景是系统写write-a...

2018-11-07 13:35:51

阅读数 515

评论数 0

Apache Pulsar简介

Apache Pulsar What is Pulsar "Pulsar is a distributed pub-sub messaging platform with a very flexible messaging model and an intuitive cli...

2018-11-05 20:42:12

阅读数 101

评论数 0

Java并发之AQS详解

一、概述   谈到并发,不得不谈ReentrantLock;而谈到ReentrantLock,不得不谈AbstractQueuedSynchronizer(AQS)!   类如其名,抽象的队列式的同步器,AQS定义了一套多线程访问共享资源的同步器框架,许多同步类实现都依赖于它,如常用的Reen...

2018-11-04 22:16:42

阅读数 99

评论数 0

Hadoop机架感知(rack-aware)配置

副本的存放策略又是HDFS实现高可靠性和搞性能的关键,优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。大型HDFS实例一般运行在跨越多个机架的计算机组成的机群上,不同机...

2018-09-15 16:27:27

阅读数 156

评论数 0

神奇的HyperLogLog算法

基数计数基本概念 基数计数(cardinality counting)通常用来统计一个集合中不重复的元素个数,例如统计某个网站的UV,或者用户搜索网站的关键词数量。数据分析、网络监控及数据库优化等领域都会涉及到基数计数的需求。 要实现基数计数,最简单的做法是记录集合中所有不重复的元素集合S_uS...

2018-08-29 12:24:23

阅读数 389

评论数 0

Java Mission Control-Java 性能分析工具

引言 本文为 Java 性能分析工具系列文章第三篇,这里将介绍如何使用 Java 任务控制器 Java Mission Control 深入分析 Java 应用程序的性能,为程序开发人员在使用 Java 任务控制器的时候提供帮助。第一篇:操作系统工具,第二篇:Java 内置监控工具。 JMC ...

2018-08-28 18:50:09

阅读数 704

评论数 0

Apache Kylin 精确去重指标优化历程

问题背景 优化1 将精确去重指标拆分HBase列族 优化2 移除不必要的toString避免bitmap deserialize 优化3 获取bitmap的字节长度时避免deserialize 优化4 无需上卷聚合的精确去重查询优化 总结 反思 相关Kylin JIRA 本文记录了我...

2018-08-27 13:28:14

阅读数 607

评论数 0

流计算框架 Flink 与 Storm 的性能对比

1. 背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档,大量...

2018-08-26 21:13:26

阅读数 344

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭