大数据-查询引擎-Hive
文章平均质量分 90
五柳-先生
宅边有五柳树,因以为号焉。
展开
-
Hive的几种内置服务
Hive内部自带了许多的服务,我们可以在运行时用–service选项来明确指定使用什么服务,如果你不知道Hive内部有多少服务,可以用下面的–service help来查看帮助,如下:01[wyp@master~]$ hive --service help02Usage ./hive --serv转载 2014-08-02 14:49:16 · 1356 阅读 · 0 评论 -
hive mapreduce script用法示例
对于一些hql语句特殊处理,hive本身没有提供相应功能,可以有两种方式,一是mapreduce script,二是写UDF,UDAF,UDTF等。后者需要调用hive提供的api。前者则类似mapreduce的stream模式,只需正确处理输入输出即可。所以mapreduce脚本进行一些简单处理还是很方便的。本例想计算德州扑克玩家是否赢牌,算法是:如果弃牌或所赢筹码为NULL,则输。转载 2014-08-07 00:18:17 · 803 阅读 · 0 评论 -
hive external table partition 关联HDFS数据
EXTERNAL 外部表 在建表的时候制定一个指向实际数据的路径(LOCATION)hive创建内部表时,会将数据移动到数据仓库指向的路径; 创建外部表时,仅记录数据所在的路径,不对数据的位置做任何改变,在删除表的时候: 内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。HDFS中已经导入了城市日期数据文件。/u转载 2014-08-10 18:13:57 · 1980 阅读 · 0 评论 -
Hive授权(Security配置)
摘:https://cwiki.apache.org/Hive/languagemanual-auth.html https://cwiki.apache.org/Hive/authdev.html http://grokbase.com/t/hive/user/11aksphhas/authorization-and-remote-connection-on-转载 2014-09-17 10:54:07 · 3597 阅读 · 0 评论 -
Hive Over HBase的介绍
Hive Over HBase是基于Hive的HQL查询引擎支持对hbase表提供及时查询的功能,它并不是将hql语句翻译成mapreduce来运行,其响应时间在秒级别。特性支持的字段类型:boolean, tinyint, smallint, int, bigint, float, double, string, struct(当hbase中的rowkey字段为struct类型,转载 2015-04-12 14:08:50 · 1249 阅读 · 1 评论 -
Hive中的排序语法
ORDER BYhive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下,必须指定 limit 否则执行会报错。hive> set hive.mapred.mo转载 2015-04-12 14:07:17 · 724 阅读 · 0 评论 -
Hive中数据的加载和导出
关于 Hive DML 语法,你可以参考 apache 官方文档的说明:Hive Data Manipulation Language。apache的hive版本现在应该是 0.13.0,而我使用的 hadoop 版本是 CDH5.0.1,其对应的 hive 版本是 0.12.0。故只能参考apache官方文档来看 cdh5.0.1 实现了哪些特性。因为 hive 版本会持续升级,故本篇文转载 2015-04-12 14:11:21 · 837 阅读 · 0 评论 -
Impala与Hive的比较
1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从转载 2015-09-10 20:23:51 · 424 阅读 · 0 评论 -
Hive 启动异常: java.net.URISyntaxException: Relative path in absolute URI:
Logging initialized using configuration in jar:file:/wls/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.propertiesException in thread "main" java.lang.RuntimeException: java.lang.Illega原创 2015-10-15 19:40:34 · 6298 阅读 · 0 评论 -
apache-hive-1.2.1 安装与MYSQL配置
1.Hive简介 起源自facebook由Jeff Hammerbacher领导的团队 构建在Hadoop上的数据仓库框架 设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据 2008年facebook把hive项目贡献给Apache Hive的组件与体系架构 用户接口:shell, thrift, web等 Th转载 2015-10-15 19:44:01 · 2606 阅读 · 0 评论 -
Hive1.2.1 启动报错 ClassNotFoundException: org.apache.hadoop.hive.service.HiveServer
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]Exception in thread "main" java.lang.ClassNotFoundException: org.apache.hadoop.hive.service.HiveServer at java.net.URLCla原创 2015-10-15 20:24:11 · 5484 阅读 · 1 评论 -
HIVE RCFile高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据转载 2014-08-04 15:04:46 · 544 阅读 · 0 评论 -
hive 创建/删除/截断表
简单的创建表create table table_name ( id int, dtDontQuery string, name string) 创建有分区的表create table table_name ( id int, dtD转载 2014-08-05 17:36:42 · 963 阅读 · 1 评论 -
Hive日志调试
这些天看到很多人在使用Hive的过程遇到这样或那样的错误,看着那些少的可怜的错误日志出错,一直找不到原因。后来我给他们介绍了修改日志输出级别之后,错误原因很快得到定位。于是乎我写了这篇博文。希望那些在使用HQL的过程中遇到问题,通过这里介绍的方法进行调试而定位到错误,从而少走弯路。好了,废话不多说进入正文。 在很多程序中,我们都可以通过输出日志的形式来得到程序的运行情况,通过这些输出日志来调转载 2014-08-02 14:56:41 · 771 阅读 · 0 评论 -
Hive0.11查询结果保存到文件并指定列之间的分隔符
在Hive0.11.0版本新引进了一个新的特性,也就是当用户将Hive查询结果输出到文件,用户可以指定列的分割符,而在之前的版本是不能指定列之间的分隔符,这样给我们带来了很大的不变,在Hive0.11.0之前版本我们一般是这样用的:1hive> insert overwrite local directory '/home/wyp/Documents/r转载 2014-08-02 15:20:42 · 1326 阅读 · 0 评论 -
Hive的数据存储模式
Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 在《Hive到底是什么》博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式转载 2014-08-02 15:24:19 · 622 阅读 · 0 评论 -
HIVE 窗口及分析函数 应用场景
窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数说明RANK()返回数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK()返回数据项在分组中的排名,排名相等会在名转载 2014-08-02 15:38:16 · 1173 阅读 · 0 评论 -
Hive几种参数配置方法
Hive提供三种可以改变环境变量的方法,分别是:(1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。 方法一: 在Hive中,所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hi转载 2014-08-02 15:05:04 · 565 阅读 · 0 评论 -
Hive几种数据导入方式
好久没写Hive的那些事了,今天开始写点吧。今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。我会对每一种数据的导入进行实际的操作,因为纯粹的文字让转载 2014-08-02 15:11:28 · 583 阅读 · 0 评论 -
hive怎样决定reducer个数
Hadoop MapReduce程序中,reducer个数的设定极大影响执行效率,这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,基于以下两个设定:1. hive.exec.reducers.bytes.per.reducer(默认为1000^3)2. hive.exec.转载 2014-08-04 09:42:18 · 1051 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实转载 2014-08-04 15:03:45 · 922 阅读 · 0 评论 -
Hive文件存储格式的测试比较
整理了一下网上的几种Hive文件存储格式的性能与Hadoop的文件存储格式。 Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个row group,在row group中对每个列分别进行存储。另:Hive能支持自定义格式,详情见转载 2014-08-05 17:35:04 · 727 阅读 · 0 评论 -
hadoop1.2.1集群安装hive1.2.0,用mysql作为元数据库
安装Hive,有条件的同学可考虑用mysql作为元数据库安装(有一定难度,可以获得老师极度赞赏),安装完成后做简单SQL操作测试。安装环境:hadoop1.2.1集群安装MySQL:配置本地yum源,vi /etc/yum.repos.d/dvd.repoRedhat6.6添加如下内容:[dvd]转载 2015-10-15 20:16:35 · 1253 阅读 · 0 评论