![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HIVE
文章平均质量分 85
iteye_13339
这个作者很懒,什么都没留下…
展开
-
HIVE表数据量和数据记录数的矛与盾
HIVE作为在Hadoop分布式框架下的数据仓库技术,处理大数据量是最基本的诉求,这种海量处理是基于分布式框架,利用分布式存储,分布式计算,利用大集群的资源并行处理海量数据。但是一旦我们不能利用这种分布式并行处理,那么海量数据只能是低效处理了。再往细处说,就是一份海量数据需要多少map来处理,一个map能处理多少数据,这些都制约着数据处理的效率。HIVE的执行效率问题可以...2012-07-06 09:45:12 · 420 阅读 · 0 评论 -
[陷阱]HIVE外部分区表一定要增加分区
刚开始玩HIVE外部表可能会遇到的小陷阱。只要我们牢记外部表也是一种表就可以,普通表有分区,外部表也是有分区的。所以如果是基于分区表创建的外部表一定要对外部表执行ALTER TABLE table_name ADD PARTITION。否则是根本访问不到数据的。例子应该会更直观:原始的表:hive> desc shaka_test_external;...2012-06-27 16:43:56 · 352 阅读 · 0 评论 -
HIVE元数据
HIVE元数据表数据字典:表名说明BUCKETING_COLSHive表CLUSTERED BY字段信息(字段名,字段序号)COLUMNSHive表字段信息(字段注释,字段名,字段类型,字段序号)DBS NUCLEUS_TABLES元数据表和hiv...2012-06-20 12:52:37 · 154 阅读 · 0 评论 -
LINUX下单机安装HADOOP+HIVE手册
HADOOP篇HADOOP安装1.tar -zvxf hadoop-0.19.2.tar.gz2.HADOOP的安装路径添加到环境文件/etc/profile中:export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2export PATH=$HADOOP_HOME/bin:$PATHHADOOP配置1.在...原创 2012-05-31 15:59:17 · 236 阅读 · 0 评论 -
小文件合并
文件数目过多,增加namenode的压力,hdfs的压力,同时需要更多map进程,影响处理效率。可以通过配置如下几个参数,合并Map和Reduce的结果文件,消除这些影响。控制每个任务合并小文件后的文件大小(默认256000000):hive.merge.size.per.task告诉hadoop什么样的文件属于小文件(默认16000000):hive.merge.sm...2012-05-03 13:07:53 · 198 阅读 · 0 评论 -
【转】Hadoop 中的两表join
原文见:http://www.gemini5201314.net/hadoop/hadoop-%E4%B8%AD%E7%9A%84%E4%B8%A4%E8%A1%A8join.html 作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论...原创 2012-08-09 10:35:16 · 85 阅读 · 0 评论 -
HIVE动态分区参数配置
设置如下参数开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的设置如下参数配置动...2012-07-30 15:33:45 · 686 阅读 · 0 评论 -
HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板
自己写代码时候的利用到的模板UDF步骤:1.必须继承org.apache.hadoop.hive.ql.exec.UDF2.必须实现evaluate函数,evaluate函数支持重载package com.alibaba.hive.udf;import org.apache.hadoop.hive.ql.exec.UDFpublic cl...2012-04-01 10:09:12 · 230 阅读 · 0 评论 -
配置HIVE执行的本地模式
自0.7版本后Hive开始支持任务执行选择本地模式(local mode),如此一来,对数据量比较小的操作,就可以在本地执行,这样要比提交任务到集群执行效率要快很多。配置如下参数,可以开启Hive的本地模式:hive> set hive.exec.mode.local.auto=true;(默认为false)当一个job满足如下条件才能真正使用本地模式:...2012-07-21 09:20:18 · 485 阅读 · 0 评论 -
基于HIVE文件格式的map reduce代码编写
by hugh.wangp 我们的数据绝大多数都是在HIVE上,对HIVE的SEQUENCEFILE和RCFILE的存储格式都有利用,为了满足HIVE的数据开放,hive client的方式就比较单一,直接访问HIVE生成的HDFS数据也是一种必要途径,所以本文整理测试了如何编写基于TEXTFILE、SEQUENCEFILE、RCFILE的数据的map reduce的代码。以wordcou...2012-02-14 19:03:05 · 119 阅读 · 0 评论 -
HIVE文件存储格式的测试比较
by hugh.wangp 根据自身涉及到的数据分布和使用需求,对HIVE上的三类文件格式做了如下测试,指导HIVE的文件格式选型。测试存在环境、数据分布、测试偏重点的不同,本测试只供参考,不作为大家选型决策的绝对指导。HIVE的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFIL...2012-02-13 17:26:40 · 150 阅读 · 0 评论 -
HIVE如何使用自定义函数
HIVE提供了很多函数,但这些函数只能满足一般的需求,针对复杂的业务分析,需要自己开发适合业务需求的函数。如何开发HIVE的UDF/UDAF/UDTF,请参看如下博客介绍的自定义函数的模板:http://hugh-wangp.iteye.com/blog/1472371如何在HIVE中使用自己定义的函数,可以有几种方式:1.在HIVE会话中add 自定义函数的jar文...2012-06-28 19:44:27 · 170 阅读 · 0 评论