bigdatas
cswangs
之前的行当:http://blog.chinaunix.net/uid/29298488.html
展开
-
OLAP引擎——Kylin介绍
转载自:http://blog.csdn.net/yu616568/article/details/48103415 Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase),这段时间对mondrian和kylin都进转载 2016-10-09 20:46:46 · 643 阅读 · 0 评论 -
SBT - Resolvers
Maven Resolvers for Maven2 repositories are added as follows: resolvers += "Sonatype OSS Snapshots" at "https://oss.sonatype.org/content/repositories/snapshots" This is the most common kind转载 2016-11-16 11:08:35 · 2090 阅读 · 0 评论 -
Hive SQL的编译过程_美团技术点评
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有转载 2016-11-16 20:13:26 · 1751 阅读 · 0 评论 -
Hbase基本操作示例
Hadoop Hbase通过行关键字、列(列族名:列名)和时间戳的三元组确定一个存储单元(cell),即由 {row key, column family, column name, timestamp} 可以唯一确定一个存储值,即一个键值对: {row key, column family, column name, timestamp} -> value 下面转载 2016-11-16 20:18:34 · 1178 阅读 · 0 评论 -
解析大数据基准测试——TPC-H or TPC-DS
随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多样)[1]。TPC联合主席、Cisco高级工程师Raghunath Nambiar进一步认为大数据还面临Value(价值)和Veracity(精确)的挑战。如何客观地比转载 2016-11-15 10:13:19 · 559 阅读 · 0 评论 -
Apache Kylin的快速数据立方体算法——概述
from:http://www.infoq.com/cn/articles/apache-kylin-algorithm/ Apache Kylin(麒麟)是由eBay贡献给开源社区的大数据分析引擎,支持在超大数据集上进行秒级别的SQL及OLAP查询,目前是Apache基金会的孵化项目[1]。本文是一系列介绍快速数据立方体计算(Fast Cubing)的第一篇,将从概念上介绍新算法与旧算法的转载 2016-12-02 18:17:08 · 1011 阅读 · 0 评论 -
kafka入门:简介、使用场景、设计原理、主要配置及集群搭建
1.zookeeper在kafka的作用是什么? 2.kafka中几乎不允许对消息进行“随机读写”的原因是什么? 3.kafka集群consumer和producer状态信息是如何保存的? 4.partitions设计的目的的根本原因是什么? 一、入门 1、简介 Kafka is a distributed,partitioned,replic转载 2017-07-17 09:21:38 · 431 阅读 · 0 评论