![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
继续微笑lsj
眼界决定未来
展开
-
hive分区(partition)简介
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节转载 2016-04-12 09:32:28 · 724 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化,下文会分别阐述。 在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南转载 2016-04-12 10:13:29 · 618 阅读 · 0 评论 -
apache kylin
京东云海是由京东和ISV共同合作的模式对商家提供服务。云海提供基础的京东POP(商家开放平台)数据,包括商品、商家、客服绩效、品牌、行业等主题数据,目前可提供T+1汇总计算结果,以及上百个实时指标订阅。ISV通过商家授权可以获取商家基础数据,ISV通过JOS的API接口上传相关维表数据,数据上传到数据仓库后,ISV可以在云海开放平台上开发相关的Hive SQL对上传数据和商家基础数据进行关联计算,转载 2016-04-14 23:23:47 · 2588 阅读 · 0 评论 -
Kylin正式发布:面向大数据的终极OLAP引擎方案
日前,eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎:Kylin(http://kylin.io)。作为一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案,Kylin成功将SQL接口与多维分析机制(OLAP)引入Hadoop,旨在对规模极为庞大的数据集加以支持。背景信息eBay公司当前面临的主要挑战在于,数据规模正随着用户群体的多样化转载 2016-04-14 23:43:16 · 1497 阅读 · 0 评论 -
hive下变量的使用
Hive的变量前面有一个命名空间,包括三个hiveconf,system,env,还有一个hivevar1. hiveconf的命名空间指的是hive-site.xml下面的配置变量值。2. system的命名空间是系统的变量,包括JVM的运行环境。3. env的命名空间,是指环境变量,包括Shell环境下的变量信息,如HADOOP_HOME之类的 普通的变量可转载 2016-04-28 21:08:57 · 1146 阅读 · 0 评论 -
infobright
Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因转载 2016-04-15 22:22:04 · 2308 阅读 · 0 评论 -
impala
Impala架构分析Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快转载 2016-04-15 23:02:22 · 871 阅读 · 0 评论 -
hive inser into 与 hive overwrite区别
1、insert into 语句hive> insert into table userinfos2 select id,age,name from userinfos;2、insert overwrite语句hive> insert overwrite table userinfos2 select id,age,name from userinfo转载 2016-04-21 20:32:10 · 5734 阅读 · 0 评论 -
Presto 来自Facebook的开源分布式查询引擎
Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。下图中展现了简化的Presto系统架构。客户端(client)将SQL查询发送到Presto的协调员 (coordinator)。协调员会进行语法检查、分析和规划查询计划。计转载 2016-08-16 09:37:54 · 1526 阅读 · 0 评论