Big-Data
文章平均质量分 86
@SmartSi
Stay Hungry, Stay Foolish
展开
-
[kylin]Kylin 快速数据立方算法揭秘
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。它能在亚秒内查询巨大的Hive表。本文将详细介绍Apache Kylin 1.5中的Fast-Cubing算法。Fast Cubing,也称快速数据立方算法, 是一个新的Cube算法。我们知道,Cube的思想是用空间换时间, 通过预先的计算,把索引及转载 2016-08-25 20:45:47 · 6524 阅读 · 0 评论 -
[Hadoop]MapReduce中的Partitioner与Combiner
Partitioners负责划分Maper输出的中间键值对的key,分配中间键值对到不同的Reducer。Maper输出的中间结果交给指定的Partitioner,确保中间结果分发到指定的Reduce任务。在每个Reducer中,键按排序顺序处理(Within each reducer, keys are processed in sorted order)。Combiners是MapReduce翻译 2017-01-07 18:18:59 · 3260 阅读 · 0 评论 -
[ElasticSearch2.x]Java API 之 索引管理
ElasticSearch为了便于处理索引管理(Indices administration)请求,提供了org.elasticsearch.client.IndicesAdminClient接口。通过如下代码从 Client 对象中获得这个接口的实现:IndicesAdminClient indicesAdminClient = client.admin().indices();原创 2016-10-11 20:33:29 · 9674 阅读 · 4 评论 -
[Sqoop]Sqoop使用
Sqoop的本质还是一个命令行工具,和HDFS,MapReduce相比,并没有什么高深的理论。我们可以通过sqoop help命令来查看sqoop的命令选项,如下:16/11/13 20:10:17 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6usage: sqoop COMMAND [ARGS]Available commands: codege原创 2016-11-14 20:05:10 · 15137 阅读 · 2 评论 -
[Sqoop]Sqoop安装
1. 下载http://www.apache.org/dyn/closer.lua/sqoop/1.4.62. 解压xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt进行重命名:xiaosi@Qunar:/opt$ sudo mv sqoop-1.4.6.bin__hadoop-2.0.原创 2016-11-13 16:13:48 · 3177 阅读 · 0 评论 -
[Sqoop]Sqoop导入与导出
1. 导入实例1.1 登陆数据库查看表xiaosi@Qunar:~$ mysql -u root -pEnter password: Welcome to the MySQL monitor. Commands end with ; or \g.Your MySQL connection id is 8Server version: 5.6.30-0ubuntu0.15.10.1-log (Ub原创 2016-11-13 19:59:43 · 8466 阅读 · 0 评论 -
[Sqoop]Sqoop安装与部署
1. 下载http://www.apache.org/dyn/closer.lua/sqoop/1.4.62. 解压xiaosi@Qunar:~$ sudo tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt进行重命名:xiaosi@Qunar:/opt$ sudo mv sq原创 2016-10-08 15:52:32 · 1858 阅读 · 0 评论 -
[Presto]什么是Presto
1. Presto不是什么虽然Presto一直被一些个人或者团体称为 数据库 ,但是Presto并不是数据库。千万不要以为Presto可以解析SQL,那么Presto就是一个标准的数据库。Presto并不是传统意义上的数据库。Presto并不是MySQL、PostgreSQL或者Oracle的代替品。Presto并不能用来处理在线事务。其实很多其他的数据库产品也是被用来设计为数据仓转载 2016-09-30 11:29:06 · 7352 阅读 · 1 评论 -
[Presto]部署运行Presto
1. 安装Presto下载Presto server tarball,presto-server-0.100.tar.gz,将它解压。 它包含一个顶级目录, presto-server-0.100,我们叫它安装目录。Presto需要一个用于存储日志、本地元数据等的数据目录。 建议在安装目录的外面创建一个数据目录。这样方便Presto进行升级。下载地址:https://repo1.m转载 2016-09-30 16:16:11 · 4937 阅读 · 0 评论 -
[ElasticSearch]ElasticSearch插件之Head
1. 安装1.1 不同版本安装方式不同(1)Elasticsearch 5.x:site plugins are not supported. Run elasticsearch-head as a standalone server(2)Elasticsearch 2.x – 4.x:sudo elasticsearch/bin/plugin ins原创 2016-10-11 09:43:23 · 2750 阅读 · 0 评论 -
[Thrift]Apache Thrift入门Java实例
1. 概述Apache Thrift 是 Facebook 实现的一种高效的、支持多种编程语言的远程服务调用的框架。本文将从 Java 开发人员角度详细介绍 Apache Thrift 的架构、开发和部署,并且针对不同的传输协议和服务类型给出相应的 Java 实例,同时详细介绍 Thrift 异步客户端的实现,最后提出使用 Thrift 需要注意的事项。目前流行的服务调用方式有很多原创 2016-09-21 11:52:45 · 7029 阅读 · 0 评论 -
[Hadoop]Reducer总是能复用为Combiner?
Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势:Combiner可以用来减少发送到Reducer的数据量,从而提高网络效率。Combiner可以用于减少发送到Reducer的数据量,这将提高Reduce端的效率,因为每个reduce函数将处理相对较少记录,相比于未使用Combiner之前。Combiner与Reduce翻译 2017-01-08 13:39:56 · 1627 阅读 · 0 评论