hive
文章平均质量分 62
iteye_10679
这个作者很懒,什么都没留下…
展开
-
Hive Installation and Configuration
http://wiki.apache.org/hadoop/Hive/GettingStarted#Installation_and_Configuration原创 2010-11-25 20:13:10 · 93 阅读 · 0 评论 -
hive compile-1
Hive是Apache Hadoop项目下的一个子项目,是一个底层用Map/Reduce实现的查询引擎,具体的介绍可以查看Hive的wiki。入口Hive有三种用户接口:CLI、Client(JDBC、ODBC、thrift或其他)和WebUI,如下图所示:图1 Hive的入口这些用户接口的工作是将用户输入的HQL语句解析成单条命令传递给Driver(包括用户配置,...原创 2011-02-22 15:28:40 · 189 阅读 · 0 评论 -
hive 用mysql存储元信息
http://www.tech126.com/hive-mysql-metastore/Hive默认是采用Derby来存储其Meta信息的,如下:<property> <name>javax.jdo.OPTION.ConnectionURL</name> <value>jdbc:...原创 2011-01-22 15:22:42 · 113 阅读 · 0 评论 -
hive编译部分的源码结构
很少在博客里写翻译的东西, 这次例外. 原文在这儿. 译文掺杂了些自己的表述。解析器(Parser)解析器 由antlr生成, 文法定义在Hive.g文件中。它的功能是将查询字符串翻译成抽象语法树(Abstract Syntax Tree, 简称AST).语法分析器(Semantic Analyzer)语法分析器将AST转换成内部查询形式,此形式为查询块(Query B...原创 2011-01-13 16:47:32 · 90 阅读 · 0 评论 -
hive执行作业时reduce任务个数设置为多少合适?
Hive怎样决定reducer个数?Hadoop MapReduce程序中,reducer个数的设定极大影响执行效率,这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,基于以下两个设定:1. hive.exec.reducers.bytes.per.r...原创 2011-01-12 15:31:52 · 326 阅读 · 0 评论 -
hive 源码结构分析(编译器)
Hive是将SQL语句转换成hadoop的MapReduce程序,通常在客户端执行hive命令,然后输入SQL语句后,hive将SQL语句生成多个MR的job,然后将这些job提交给hadoop进行执行,完成后,再把结果放入到hdfs或者本地的临时文件中。Hive中的表结构信...原创 2011-01-06 16:52:12 · 148 阅读 · 0 评论 -
hive中关于partition的操作
hive> create table mp (a string) partitioned by (b string, c string);OKTime taken: 0.044 secondshive> alter table mp add partition (b='1', c='1');OKTime taken: 0.079 secondshiv...原创 2011-01-06 10:51:01 · 156 阅读 · 0 评论 -
hive mapjoin
insert overwrite table crosstestselect /*+MAPJOIN(a)*/ a.ra,a.dec,b.ra,b.decfrom rosat2rc a join tycho2rc bon (a.dec>83 and a.dec<93 and b.dec>83 and b.dec<93)where 3.5*3....原创 2010-12-15 21:35:28 · 89 阅读 · 0 评论 -
Hive QL
Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name ...原创 2010-12-15 10:47:49 · 118 阅读 · 0 评论 -
hive数据模型
Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,ExternalTable,Partition,Bucket。Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一...原创 2010-12-06 19:48:50 · 202 阅读 · 0 评论 -
SequenceFile的压缩和分片
Compressed Data Storage Keeping data compressed in Hive tables has, in some cases, known to give better performance that uncompressed storage; both, in terms of disk usage and query performa...原创 2010-12-06 19:43:40 · 251 阅读 · 0 评论 -
hive的一些资料整理
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。 Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含...原创 2010-12-06 16:23:55 · 89 阅读 · 0 评论 -
hive的存储格式
hive有textFile,SequenceFile,RCFile三种文件格式。 其中textfile为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textfile表中用insert导入到Sequence...原创 2010-12-06 13:05:20 · 187 阅读 · 0 评论 -
TPC-H on Hive
1)下载TPC-H的代码,用来生成所需要的数据 http://www.tpc.org/tpch/spec/tpch_2_8_0.zip 或者 http://www.tpc.org/tpch/default.asp 右边栏 两版本略有不同4)然后在tpch文件目录下,把makefile复制并改名成makefile,接着修改makefile文件 s...原创 2010-12-03 17:40:52 · 243 阅读 · 0 评论 -
hive show table显示不出表的问题
问题:在hive中运行 show table时,以前存在的表显示不出来,而在hdfs上表的信息存储正常。解决:到metastore_db目录所在的目录运行命令,则显示正常。 原因: hive使用内建的derby存储方式时,运行hive会在当前目录生成一个derby文件和一个metastore_db目录。在别的目录下运行hive又会生成新的metastore_db目录。h...原创 2010-12-03 11:30:51 · 2203 阅读 · 0 评论 -
hive运行实例
实际示例创建一个表CREATE TABLE u_data ( userid INT, movieid INT, rating INT, unixtime STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'STORED AS TEXTFILE;下载示例数据文件,并解压缩wget http://w...原创 2010-12-02 21:18:17 · 113 阅读 · 0 评论 -
源码编译hive
hive -hiveconf hive.root.logger=DEBUG,console(debug模式运行hive)==========================================================源码编译hive 环境:hadoop 0.20.2 hive 0.6 $ svn co http://svn.a...原创 2010-12-02 19:00:13 · 445 阅读 · 0 评论 -
hive报Invalid maximum heap size: -Xmx4096m错误解决方法
mongodb@krusiting-laptop:~/hive-0.6.0$ bin/hiveInvalid maximum heap size: -Xmx4096mThe specified size exceeds the maximum representable size.Could not create the Java virtual machine...原创 2010-11-29 10:25:50 · 630 阅读 · 0 评论 -
hive serde
一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。 2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。 3、Hive可以方便的将数据加载到表中而不需要对数据进行转...原创 2011-04-13 15:34:02 · 140 阅读 · 0 评论