![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 78
baiyunl
这个作者很懒,什么都没留下…
展开
-
Hive-0.5中UDF和UDAF简述
一、UDF1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Textc)用户提供的 map/reduce 脚本:不管什么语言,...原创 2010-08-20 09:33:19 · 70 阅读 · 0 评论 -
Hive与并行数据仓库的体系结构比较
转自:http://www.db2china.net/club/thread-11637-1-1.html最近分析和比较了Hive和并行数据仓库的架构,本文记下一些体会。Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点:1. 数据以HDFS文件的形式存储,从而可以很方便的使用外部文件2. 元数据存储独立于数据存储之外,从而解耦合...原创 2011-03-16 14:04:39 · 115 阅读 · 0 评论 -
hive与hbase整合
Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类 (Hive Storage Handlers), 大致意思如图所示:口水: 对 hive_hbase-handler.jar 这个东东还有点兴趣,有空来磋磨一下。一、2个注意事项:1、需要的软件有 Hadoop、Hive、Hbase...原创 2011-03-16 15:12:21 · 80 阅读 · 0 评论 -
Hive 的扩展特性
Hive 是一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File 内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdout 传输数据 用户自定义函数: Substr, Trim, 1 – ...原创 2011-03-16 15:35:57 · 178 阅读 · 0 评论 -
hive综合
Hive 是什么在接触一个新的事物首先要回到的问题是:这是什么?这里引用 Hive wiki 上的介绍:Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on ...原创 2011-03-16 15:40:03 · 211 阅读 · 0 评论 -
hive优化
Hive 针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。列裁剪(Column Pruning)在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询: SELECT a,b FROM T WHERE e < 10;其中,T 包含 5 个列 (a,b,c,d,e),列 c,d 将会被忽略,只会读取a, ...原创 2011-03-16 15:41:55 · 83 阅读 · 0 评论 -
hive JDBC 连接
String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; try { Class.forName(driverName); } catch (ClassNotFoundException e) { // TODO Auto-generated catch block e.printSta...原创 2011-03-18 15:39:17 · 79 阅读 · 0 评论 -
写好Hive 程序的五个提示
转自 :http://www.tbdata.org/archives/622 使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右...原创 2011-03-18 16:24:02 · 303 阅读 · 0 评论 -
如何获取hive建表语句
在使用hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如mysql,derby等,这里我们以mysql为元数据库,结合0.4.2版本的hive为例进行研究。连接上mysql后可以看到hive元数据对应...原创 2011-03-22 15:35:42 · 839 阅读 · 0 评论 -
定时将数据导入到hive中
应用crontab定时将数据导入到hive中:在调用/bin/hive -f 'loadData.sql' 的时候,报错:Cannot find hadoop installation: $HADOOP_HOME must be set or hadoop must be in the path。查资料得知是由环境变量在crontab中不一定可识别引起的。于是在脚本中前面加入export HA...原创 2011-03-16 13:55:59 · 508 阅读 · 0 评论 -
Hive0.5中Partition简述
转自:http://blog.csdn.net/dajuezhao/archive/2010/07/21/5753055.aspx一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要...原创 2011-03-15 17:00:58 · 75 阅读 · 0 评论 -
Hive SQL语法解读
一、 创建表 在官方的wiki里,example是这样的:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name dat...原创 2011-03-15 15:11:51 · 578 阅读 · 0 评论 -
基于Hive的日志数据统计实战
一、Hive简介Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理。我们可以把 hive 中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在 HDFS 中的。 Hive 经过对...原创 2011-01-10 11:47:06 · 99 阅读 · 0 评论 -
hive 相关
Hive使用MySQL存放元数据 可以参考一下这篇文章 http://www.mazsoft.com/blog/post/2010/02/01/Setting-up-HadoopHive-to-use-MySQL-as-metastore.aspx 别忘了下载 MySQL 的JDBC驱动,推荐下载 mysql-connector-java-5.1.11.tar.gz H...原创 2011-01-10 17:36:12 · 201 阅读 · 0 评论 -
hive深入资料
hive wiki:http://wiki.apache.org/hadoop/Hive/LanguageManual hive 优化:http://www.chinacloud.cn/show.aspx?id=3277&cid=12 http://wiki.apache.org/hadoop/Hive/HiveClient3 http://www.f...原创 2011-01-13 20:01:34 · 480 阅读 · 0 评论 -
hiveQL 优化
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m 2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.metastore.warehouse.dir value >/user/hive/warehouse descriptio...原创 2011-01-13 20:52:07 · 238 阅读 · 0 评论 -
hive 备忘录
1 hive结果用gzip压缩输出 在运行查询命令之前,设置下面参数:set mapred.output.compress=true;set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCod...原创 2011-08-24 14:56:04 · 97 阅读 · 0 评论 -
hive数组使用
转:http://blog.sina.com.cn/s/blog_61c463090100rt4h.html 数据afan@ubuntu:/usr/local/hadoop/hive$ cat test.txt12,23,23,34 what,are,this34,45,34,23,12 who,am,i,areafan@ubuntu:/usr/loca...原创 2011-05-27 13:53:24 · 1650 阅读 · 0 评论 -
Hive User Defined Functions
Hive User Defined Functions Hive User Defined Functions (UDFs) fall into the following categories: (*)Built-in Operators Relational OperatorsAri...原创 2011-07-14 15:22:24 · 134 阅读 · 0 评论 -
应用mysql保存hive的metastore
http://www.tech126.com/hive-mysql-metastore/Hive默认是采用Derby来存储其Meta信息的,如下:< property> < name> javax. jdo. OPTION . ConnectionURL</ name> < value> jdbc:derby:// zw- had...原创 2011-03-15 15:09:25 · 65 阅读 · 0 评论 -
hive中分组取前N个值的实现
需求:假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前2名数据如下表:id clsno score1 c1 202 c1 303 c1 404 c1 505 c1 8011 c1 8012 c1 ...原创 2012-03-28 15:49:06 · 1189 阅读 · 0 评论