Hive
文章平均质量分 61
吐槽达达仔
这个作者很懒,什么都没留下…
展开
-
Hive调用Python脚本异常
我使用的是Hive 0.10和Hadoop 1.1.1。在家里的环境是Hive 0.9和Hadoop 1.0.4. Hive可以使用Python脚本大大地提高数据处理的开发效率,使用MapReduce的方式将数据处理成想要的结果。 我们使用ADD FILE 为Hive增加一个脚本,或者Jar包。有两种方式:ADD FILE {env:HOME}/your_file/y...2013-03-05 10:11:48 · 485 阅读 · 0 评论 -
[转]Hive实现Oracle wm_concat函数
工作中遇到将Hive数据组装同步到MongoDB的需求。于是乎,传统的DB设计结构就遇到了难题,因此需要有个向WM_CONCAT的函数来将列转行。还好有现成的解决方案,否则又要自己码一个UDAF处理函数。hive> desc t; OK id string str string Time taken: ...原创 2013-10-24 11:24:39 · 1184 阅读 · 0 评论 -
Hive的窗口函数
Window Function又称做窗口函数,分析函数。在Oracle里面就有这样的分析函数,用于数据统计分析之用。在Hive里面,数据分析也提出相似的需求。使用方法如下:select t.*, row_number() over(partition by area sort by updated_date ) as rnofrom table_name tover()表示当前查询的...2013-10-18 13:48:12 · 355 阅读 · 0 评论 -
[转]Hive的parse_url函数
refer to http://blog.csdn.net/xiaolang85/article/details/8823025 parse_url(url, partToExtract[, key]) - extracts a part from a URL解析URL字符串,partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,...原创 2013-10-15 09:49:38 · 184 阅读 · 0 评论 -
Hive的UDTF
Refer to:http://blog.csdn.net/wf1982/article/details/7623708 1.介绍 UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。同时,也可以解决一列拆分成多列的问题(Hive支持复杂的数据格式,包括List)。...原创 2013-08-28 14:27:10 · 192 阅读 · 0 评论 -
Hive建表的Location问题
最近公司在使用Hive做项目测试,所以就在Hive上面建了一些表,做测试。使用建表语句后发现数据被自动覆盖了,现在了解到的情况是这样的。 Hive中,表的Metadata信息全部存储在MySQL中。而存储在MySQL中的数据是没有校验过程的。也就是说,你可以创建一个逻辑错误的表,两个表指向同一个HDFS文件也是有可能的。 所以,在使用CREATE TABLE的时候,L...2013-02-26 16:04:18 · 4091 阅读 · 0 评论 -
Hive下的变量使用
Hive的变量前面有一个命名空间,包括三个hiveconf,system,env,还有一个hivevar1. hiveconf的命名空间指的是hive-site.xml下面的配置变量值。2. system的命名空间是系统的变量,包括JVM的运行环境。3. env的命名空间,是指环境变量,包括Shell环境下的变量信息,如HADOOP_HOME之类的 普通的变量可以使用 ...2013-07-17 14:40:44 · 1493 阅读 · 0 评论 -
Hive连接超长Hbase宽表异常
我们用Hive去连接一个Hbase款表,大概有150多个字段。因此,就报了异常:FAILED: Error in metadata: MetaException(message:javax.jdo.JDODataStoreException: Put request failed : INSERT INTO `SERDE_PARAMS` (`PARAM_VALUE`,`SERDE_ID`...原创 2013-07-17 09:32:36 · 385 阅读 · 0 评论 -
[半转]遇到Map-side Aggregation OOM 异常
原文来自:http://blog.csdn.net/macyang/article/details/9260777 通读了一下,进行翻译:在MapReduce job下面,有个Combiner,工作机制是将Reducer的工作分担一部分给Map阶段来做。在Hive的执行计划优化中也是如此,默认情况下会开启Map-side Aggregation优化的功能。 select...原创 2013-12-03 15:07:45 · 162 阅读 · 0 评论 -
[转]hive产生动态分区太多导致的问题 .
转自:http://blog.csdn.net/chenyi8888/article/details/8236726 做应用开发的也要帮助他们找BUG,真是头疼。遇到如下异常,度娘给出的答案如下: 过多的动态分区会导致job出现以下情况:org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.i...原创 2013-07-12 09:18:45 · 723 阅读 · 0 评论 -
Hive使用regexp,RLIKE需要使用转义字符
使用Hive做数据清洗,经常需要使用正则表达式。 比较讨厌的是,正则表达式匹配失败的时候,hive完全不会报错。原来的写法SELECT * from ahhs_product_info where product_name NOT RLIKE '([\u4e00-\u9fa5])+' ; 在hive里面的写法SELECT * from ahhs_product_in...原创 2013-07-11 10:25:57 · 3172 阅读 · 0 评论 -
Hive常用参数配置详细记录
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) truehive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。 134217728Lh...原创 2013-05-30 16:29:00 · 285 阅读 · 0 评论 -
Hive常用Job配置 & Map,Reduce数量控制
开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。设置如下参数配置动态分区的使用环境:hive.exec.max...原创 2013-05-28 18:00:01 · 1319 阅读 · 0 评论 -
Hive中分组取前N个值的实现-row_number()
背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。 解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它的作用是按指定的...原创 2013-05-27 14:57:58 · 879 阅读 · 0 评论 -
[翻译]Hive的Security配置
为了更好地使用好Hive,我将《Programming Hive》的Security章节取出来,翻译了一下。Hive还是支持相当多的权限管理功能,满足一般数据仓库的使用。 Hive由一个默认的设置来配置新建文件的默认权限。<property> <name>hive.files.umask.value</name> <valu...原创 2013-03-15 10:26:05 · 236 阅读 · 0 评论 -
Hive-UDAF开发指南
refer to:http://www.cnblogs.com/ggjucheng/archive/2013/02/01/2888051.html 在用Hive进行ETL的时候,对于一些复杂的数据处理逻辑,往往不能用简单的HQL来解决,这个时候就需要使用UDAF了。 对于底层的内容还没有细看,先从应用的角度来说一下吧。使用UDAF需要实现接口GenericUDAFResol...2013-03-11 17:45:59 · 210 阅读 · 0 评论 -
[转载]Hive日期函数
转自大神 http://www.oratea.net/?p=944无论做什么数据,都离不开日期函数的使用。这里转载一下Hive的日期函数的使用,写的相当完整。 日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, string format]) 返回值: string说明: 转化UNIX时间戳(从197...原创 2013-03-08 16:03:34 · 4874 阅读 · 0 评论 -
Hive处理数据的头脑风暴
Hive虽然强大,但是我们遇到的业务需求必定是千奇百怪的。往往在数据库中,通过游标来实现的数据读取,再回代到绑定变量的SQL里面进行查询在Hive时代已经不复存在。 举个例子,解析用户最近一年产品购买的金额。时间日期按照最近一次购买倒推一年。原本我在Oracle数据库里面是通过游标+SQL绑定回查完成的。 现在用Hive,我觉得应该这么写:select user_i...2013-03-06 18:12:34 · 201 阅读 · 0 评论 -
Hive JDBC 配置session properties
在使用hive jdbc的时候,需要有一些hive session的配置,比如说:当前作业使用的是哪条队列当前作业的map大小,reduce大小,map个数,reduce的个数。等等 解决方案是:在jdbc url上面,进行初始化的配置。Connection URL FormatThe HiveServer2 URL is a string with the fo...原创 2017-07-09 23:13:08 · 1207 阅读 · 0 评论