hive
寂寞烟
打杂的码农
展开
-
hive 配置参数说明
hive 配置参数说明hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈原创 2014-03-18 17:29:06 · 657 阅读 · 0 评论 -
Hive学习笔记--Hive 优化
第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的•su转载 2014-05-26 11:35:16 · 641 阅读 · 0 评论 -
Hive 内建操作符与函数开发
第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等转载 2014-05-26 11:26:30 · 622 阅读 · 0 评论 -
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.Runtim
解决hiveFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient原创 2014-05-24 10:49:24 · 9155 阅读 · 0 评论 -
Hive文件格式(RCFILE)
hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE格式的表不能直接从本地文件导入数据,数据要先导入原创 2014-04-28 14:36:46 · 3650 阅读 · 0 评论 -
map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,原创 2014-03-18 17:39:31 · 821 阅读 · 0 评论 -
hive安装
一、查看需求安装java 1.6及hadoop 0.20.x二、安装hivetar -xf hive-x.y.z.tar.gz(本次安装为hive-0.8.1.tar.gz)将解压后的hive-0.8.1文件放在系统的/home/hadooptest/中。在/etc/profile中添加:export HIVE_HOME=/h原创 2014-03-18 17:17:21 · 618 阅读 · 0 评论 -
hive 优化
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon A.key = B.原创 2014-03-18 17:32:29 · 532 阅读 · 0 评论 -
关于union和join区别和联系
union和join是需要联合多张表时常见的关联词,具体概念我就不说了,想知道上网查就行,因为我也记不准确。先说差别:union对两张表的操作是合并数据条数,等于是纵向的,要求是两张表字段必须是相同的(Schema of both sides of union should match.)。也就是说如果A表中有三条数据,B表中有两条数据,那么A union B就会有五条数据。说明一下union 和原创 2014-03-18 17:35:52 · 1377 阅读 · 0 评论 -
hive分区
原文地址:http://www.itpub.net/redirect.php?tid=1466017&goto=lastpost#所介绍内容基本上是翻译官方文档,比较肤浅,如有错误,请指正!hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。原创 2014-03-18 17:38:29 · 616 阅读 · 0 评论 -
Hive官方文档
翻译Hive官方文档系列,文中括号中包含 注: 字样的,为我自行标注的,水平有限,翻译不是完美无缺的。如有疑问,请参照Hive官方文档对照查看。内容列表Cloudera制作的Hive介绍视频安装与配置系统需求安装Hive发行版从Hive源码编译运行Hive配置管理概览运行时配置Hive, Map-Reduce 与本地模式错误日志DDL原创 2014-04-29 15:15:28 · 3403 阅读 · 0 评论 -
hive mapjoin使用
今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。原创 2014-03-19 10:07:55 · 761 阅读 · 0 评论 -
Hive UDF 报错
java.lang.UnsupportedClassVersionError: org/apache/nutch/crawl/Crawl3 : Unsupported major.minor version 51.0 at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineCla原创 2014-03-18 17:27:08 · 2027 阅读 · 0 评论 -
Hive学习笔记--Hive JDBC
第一部分:搭建Hive JDBC开发环境搭建:Steps•新建工程hiveTest•导入Hive依赖的包•Hive 命令行启动Thrift服务•hive --service hiveserver & 第二部分:基本操作对象的介绍Connection•说明:与Hive连接的Connection对象•Hive 的连接转载 2014-05-26 11:37:32 · 1085 阅读 · 0 评论