Hive
文章平均质量分 55
liuxw0035
这个作者很懒,什么都没留下…
展开
-
Hive并行排序
set hive.optimize.sampling.orderby=true;set hive.optimize.sampling.orderby.number=10000;set hive.optimize.sampling.orderby.percent=0.1f; 记录一下,Hive中并行排序参数; hive.optimize.sampling.orderby ...2014-11-13 14:31:53 · 162 阅读 · 0 评论 -
[一起学Hive]之四-Hive的安装配置
其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。三、Hive的安装配置3.1 环境需求Hadoop ClientMysql3.2 下载并解压Hive0.13.1安装包下载地址:http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gzcp...2015-06-05 09:19:15 · 130 阅读 · 0 评论 -
初装Hive运行时候报错 Exception in thread "main" java.io.IOException: Permission denied
将Hadoop和Hive客户端拷贝到另一台机器,除了root用户,其他运行运行hive命令均报错: Exception in thread "main" java.io.IOException: Permission denied at java.io.UnixFileSystem.createFileExclusively(Native Method) ...2014-11-04 10:32:57 · 184 阅读 · 0 评论 -
Hive0.13+Hadoop cdh3中的log4j问题
Hive0.12+ 在Hadoop cdh3(1.0)中使用,会有如下错误: log4j:ERROR Could not instantiate class [org.apache.hadoop.hive.shims.HiveEventCounter].java.lang.RuntimeException: Could not load shims in class org.apac...2014-10-22 10:36:40 · 219 阅读 · 0 评论 -
hive左外关联(left outer join)中主从表的过滤条件
select a.sdid,b.cookie_idfrom lxw_t2 aleft outer join lxw_t1 b on (a.sdid = b.cookie_id and a.pt = '2012-11-22'); 如果把主表a的过滤条件写在on后面,则会先关联,在关联之后的结果上再过滤。 select a.cookie_id,b.sdidfrom ...2012-12-25 11:12:18 · 331 阅读 · 0 评论 -
Hive中实现group concat功能(不用udf)
hive> desc t;OKid stringstr stringTime taken: 0.249 secondshive> select * from t;OK1 A1 B2 C2 DTime taken: 0.209 seconds 在Hive0.9中,可用:...2013-06-14 16:32:26 · 400 阅读 · 0 评论 -
hive的不等值关联
hive中不支持不等值关联,诸如: select a.app_name,b.app_name from a left outer join b on (b.app_name like a.app_name) select a.app_name,b.app_name from a left outer join b on (b.num < a....2012-06-25 10:22:07 · 510 阅读 · 1 评论 -
hive中一些实用的小技巧
1. 忽略错误,继续执行下面的语句,特别是在使用hive -f "xxx.sql"时候比较实用: hive --hiveconf hive.cli.errors.ignore=true -f "xxx.sql" 2. 虚拟列: INPUT__FILE__NAME(输入文件的路径) BLOCK__OFFSET__INSIDE__FILE(记录在文件中的偏移...原创 2012-06-21 17:47:46 · 137 阅读 · 0 评论 -
mapreduce报错:java.io.IOException: Split metadata size exceeded 10000000.
Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000. Aborting job job_201205162059_1073852 at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.r...2012-06-21 15:46:21 · 197 阅读 · 0 评论 -
hive新旧jar包冲突引起的错误java.lang.NoSuchFieldError: info
Exception in thread "main" java.lang.NoSuchFieldError: info at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:583) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.jav...2012-06-21 11:34:53 · 201 阅读 · 0 评论 -
开发高效的hive程序,hive优化
给部门做的一次hive开发优化的分享,经验不足,还请大家多多指教。 ppt见附件。 •分区裁剪、列裁剪•合理利用中间表,避免对一个表重复扫描•尽量避免笛卡尔积•合理使用MapJoin•用Join代替IN•合理使用Union a...2012-06-20 10:04:24 · 82 阅读 · 0 评论 -
hive中转义特殊字符
原SQL如下: regexp_extract(lower(url), 'bookid\\=([^&$]+)', 1) 封装hive sql用的是perl,perl中用hive -e的方式将sql传给hive执行,上面的语句中perl经过转义,变成了 regexp_extract(lower(url), 'bookid=([^&5.008008+)', 1)...2012-06-27 09:51:37 · 1631 阅读 · 0 评论 -
hive中巧用正则表达式的贪婪匹配
需求:从字符串"979|7.10.80|8684"中提取最后一个竖线|后面的内容,但是在这个字符串中,竖线的个数不是固定的 。 使用hive中的regexp_extract函数实现如下:select regexp_extract('979|7.10.80|8684','.*\\|(.*)',1) from t1 limit 1; OK 8864 由于...原创 2012-12-20 17:19:28 · 206 阅读 · 0 评论 -
hive中使用标准sql实现分组内排序
在hive中,想要实现分组内排序,一般都是自己写udf实现oracle中分析函数row_number() over(partition)的功能,如果不使用自定义udf,仅使用标准sql实现的话,毫无性能可言,仅做实验而已。 方便起见,以下语句为oracle中语句,但都属于标准sql,在hive中亦可: CREATE TABLE lxw_t (user_id VARCHAR2(20...2013-05-15 10:22:14 · 176 阅读 · 0 评论