hive
SunmonDong
这个作者很懒,什么都没留下…
展开
-
java.lang.RuntimeException: Hive metastore database is not initialized.Please use schematool
问题:Exception in thread “main” java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType …) to create the schema.原因:由于没有初始化元数据库原创 2016-05-10 20:09:13 · 3863 阅读 · 0 评论 -
Hive中表的链接(外连接和自连接)
学习前准备三张表: 1、等值连接如果连接条件中是一个等号这是等值连接2、不等值连接如果连接条件中不是一个等号这是不等值连接3、外连接例题:按部门统计员工人数:部门号,部门名称,人数 1)、使用等值连接: 结果为: 查询部门表得到: 可以看出通过直接连接查询的结果少了一个部门,这是因为在empno表中没有operations这个部门,导致where语句不成立,所以就没有输出。原创 2016-05-23 21:50:52 · 11018 阅读 · 1 评论 -
Hive中自定义函数的实现
1、Hive自定义函数的实现细节1).自定义UDF需要继承:org.apache.hadoop.hive.ql.UDF2).需要evaluate函数,evaluate函数支持重载。2、Hive自定义函数的部署运行1).把程序打包放到目标机器上去2).进入hive客户端,添加jar包:hive> add jar /home/sfd/udf_test.jar3).创建临时函数:hive> cr原创 2016-05-23 21:47:05 · 4102 阅读 · 1 评论 -
HIVE和HBASE区别
1. 两者分别是什么?Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询–因为它只能够在Hdaoop上批量的执行。Apache HBase是一种Key/Value系统,它运行在HDFS之上。转载 2016-05-22 21:09:17 · 614 阅读 · 0 评论 -
数据仓库----Hive进阶篇 二
上回说到内置函数四、hive的表连接学习前准备三张表: 1、等值连接如果连接条件中是一个等号这是等值连接2、不等值连接如果连接条件中不是一个等号这是不等值连接3、外连接例题:按部门统计员工人数:部门号,部门名称,人数 1)、使用等值连接: 结果为: 查询部门表得到: 可以看出通过直接连接查询的结果少了一个部门,这是因为在empno表中没有operations这个部门,导致w原创 2016-05-21 17:01:41 · 1792 阅读 · 0 评论 -
Hive的数据存储(内部表,外部表,分区表,桶表,视图)
一,Hive的数据存储1,基于HDFS2,没有专门的数据存储格式3,存储结构主要包括:数据库,文件,表,视图4,可以直接加载文本文件(.txt文件等)5,创建表示,指定Hive数据的列分隔符与行分隔符二,Hive的数据模型1,表1,Table 内部表 1).与数据库中的Table在概念上是类似的 2).每一个Table在Hive中都有一个相应的目录存储数据 3).所有的Tab原创 2016-05-20 17:36:48 · 3710 阅读 · 0 评论 -
数据仓库——Hive入门介绍
一,什么是Hive:1.Hive是建立在Hadoop HDFS上的数据仓库基础架构;2.Hive可以用来进行数据提取转化加载(ETL)3.Hive定义了简单的类似SQL查询语言,称为HQL它允许熟悉SQL的用户查询数据4.Hive允许熟悉MapRduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作;5.Hive是SQL解析引原创 2016-05-20 11:35:17 · 4183 阅读 · 0 评论 -
HIVE+mysql环境搭建及简单应用
Hive环境搭建之前需要搭建hdfs分布式 简单的分布式搭建点击这里 HA(两个namenode)高可用性的hadoop完全分布式环境配置点击这里Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户)1).配置HIVE_HOME环境变量 export原创 2016-04-24 13:09:09 · 2310 阅读 · 0 评论 -
hive 的优化
hive.optimize.cp=true:列裁剪 hive.optimize.prunner:分区裁剪 hive.limit.optimize.enable=true:优化LIMIT n语句 hive.limit.row.max.size=1000000: hive.limit.optimize.limit.file=10:最大文件数本地模式(小任务): 需要满足以下条件: 1.转载 2016-05-16 19:57:19 · 475 阅读 · 0 评论 -
从 MapReduce 到 Hive —— 一次迁移过程小记
1、背景介绍早先的工作中,有很多比较复杂的分析工作,当时对hive还不熟悉,但是java比较熟悉,所以在进行处理的时候,优先选择了MR. 但是随着工作的数据内容越来越多,越来越复杂,对应的调整也越来越多,越来越复杂.纯使用MR方式整个流程就比较复杂,如果需要修改某个部分,那首先需要修改代码中的逻辑,然后把代码打包上传到某个可访问路径上(一般就是hdfs),然后在调度平台内执行.如果改动较大的情况,转载 2016-05-16 17:15:15 · 2192 阅读 · 0 评论 -
hive 基本命令
创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样 hive> create table new_tab转载 2016-05-15 17:25:39 · 437 阅读 · 0 评论 -
Hive的执行生命周期
七大步骤1.CliDriver进行交互模式1.入口:/bin/hive 2.调用CliDriver类进行初始化过程 3.处理-e,-f,-h等信息,如果是-h,打印提示信息,并退出 4.读取hive的配置文件,设置HiveConf 5.创建一个控制台,进入交互模式2.读取命令processLine进行分割处理在交互方式下,读取每一个输入命令行,直到‘;’为止,然后提交给processLine原创 2016-05-26 21:57:09 · 4164 阅读 · 0 评论 -
Hive 数据倾斜解决方案(调优)
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分转载 2016-05-26 21:20:47 · 24769 阅读 · 0 评论 -
linux下编译Hive 源码并导入eclipse中(使用maven)
1.下载hive源码官网下载 我下载的hive-2.0.0版本的。2.使用maven编译。一开始我要使用的是ant进行编译的,可是我的源码目录下没有build.xml文件,只有pom.xml文件,这使得我在使用ant编译的时候总是会报这样的错:Buildfile: build.xml does not exist!Build failed上网查了好多方法,最终却无功而返;只能想其他方法。 突然原创 2016-05-25 19:19:44 · 3320 阅读 · 2 评论 -
数据仓库----Hive进阶篇 一
一、数据的导入1、使用Load语句执行数据的导入1.语法: 其中(中括号中表示可加指令): LOCAL:表示指定的文件路径是否是本地的,没有则说明是HDFS上的文件路径。 OVERWRITE:表示覆盖表中的已有数据。 PARTITION ():如果是向分区表中导入数据的话需要指定分区。2.实例: (1).无分区情况: 其中的'原创 2016-05-21 15:46:04 · 15010 阅读 · 0 评论