hive
xuguokun1986
这个作者很懒,什么都没留下…
展开
-
Hive整合HBase,操作HBase表
Hive整合HBase,操作HBase表HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。关于Hive操作HBase表的原理,请参考我之前的博文: http://lxw1234.com/archives/2015/04/101.htm值得商榷的是,使转载 2016-03-23 10:35:10 · 665 阅读 · 0 评论 -
解决Hive installation issues: Hive metastore database is not initialized
I tried to install hive on a raspberry pi 2. I installed Hive by uncompress zipped Hive package and configure $HADOOP_HOME and $HIVE_HOME manually under hduser user-group I created. When running hive,转载 2016-06-14 20:30:53 · 5262 阅读 · 0 评论 -
hive在执行任务的时候提示java.io.FileNotFoundException: File does not exist: hdfs://Master:9000/usr/local/apach
1、错误信息Number of reduce tasks determined at compile time: 1In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=In order to limit the maximum num原创 2016-04-27 18:33:48 · 18368 阅读 · 7 评论 -
hive建表时对字段间分割符的限制
1、数据文件中,每一行的字段用@$_$@来区分,于是测试数据可以这样:1@$_$@xu@$_$@30@$_$@student2、创建表的语句CREATE EXTERNAL TABLE user_table (userid string,username string,age string,title string ) row format delimited fields term原创 2016-05-03 12:34:03 · 3949 阅读 · 1 评论 -
hive命令的几点整理
1、我们可以一些命令,例如sql语句放在文本文件中,然后通过source关键词去调用执行这些命令例如,文本文件所在的目录是:/home/hadoop/xuguokun/test.txt然后执行下面的命令:hive> source /home/hadoop/xuguokun/test.txt最终得到如下的执行结果:hive> source /home/hadoop/xug原创 2016-04-27 19:31:27 · 1465 阅读 · 0 评论 -
Hive四种数据导入方式
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:转载 2016-03-28 11:08:44 · 473 阅读 · 0 评论 -
基于hive的日志数据统计实战
一 、hive简介 hive是一个基于hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用HQL(类SQL)语言对这些数据进行自动化管理和处理。我们可以把hive中海量结一、hive简介hive是一个基于hadoop的开源数据仓库工具,用于存储转载 2016-03-28 10:47:55 · 698 阅读 · 0 评论 -
hive对第三方插件的集中管理
在上一篇博客发现一个问题:add jar file:///home、hadoop、xuguokun/elasticsearch-hadoop-2.2.0.jar;该方法只能在一个Terminal中起作用,当关闭当前Terminal再重新开启新的时,刚刚add jar引入的jar就不再起作用了。解决上述问题的方法:在hive的hive-site.xml进行配置,配置的原创 2016-03-28 09:34:04 · 1189 阅读 · 0 评论 -
map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2016-04-25 20:31:19 · 448 阅读 · 0 评论 -
hive与es之间实现数据交互
1、环境描述:hadoop集群环境:hadoop-2.6.0;3台集群环境hbase集群环境:habase-1.1.2 ;3台集群环境hive环境:hive-1.2.1;1台测试环境elasticsearch:elasticsearch-1.7.1测试环境2、下载hive与es之间数据交互的插件。说明:如果用ElasticSearch版本为2.1.0,必须使用elastic原创 2016-03-26 10:45:01 · 14826 阅读 · 0 评论 -
hive array、map、struct使用
hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array中的转载 2016-03-25 14:21:04 · 383 阅读 · 0 评论 -
Hive之分区(Partitions)和桶(Buckets
hive引入partition和bucket的概念,中文翻译分别为分区和桶(我觉的不是很合适,但是网上基本都是这么翻译,暂时用这个吧),这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。首先介绍分区的概念,还是先来个例子看下如果创建分区表:[code lang=”sql”]create table logs_par转载 2016-03-23 19:52:39 · 1541 阅读 · 0 评论 -
Hive over HBase和Hive over HDFS性能比较分析
环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.10.0-cdh4.3.0 一、查询性能比较:query1:select count(1) from on_hdfs;selec转载 2016-03-23 10:39:31 · 370 阅读 · 0 评论 -
Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-yarn":grid:supergroup:drwx------
错误信息: Permission denied: user=root, access=READ_EXECUTE, inode="/tmp":hadoop:supergroup:drwx------办法:hadoop fs -chown -R hive:hive /tmp 其中hive是通过jdbc访问hive数据库连接中的用户名:Connection conn = DriverMa原创 2017-02-16 15:49:25 · 6418 阅读 · 1 评论