hive
文章平均质量分 56
a1a2a3a4
这个作者很懒,什么都没留下…
展开
-
设置map的数量
set mapred.max.split.size=400000000;set mapred.min.split.size.per.node=400000000;set mapred.min.split.size.per.rack=400000000;set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputF原创 2014-10-25 18:10:34 · 829 阅读 · 0 评论 -
hive 自定定义函数 从hdfs中加载jar
1、编写函数 package com.example.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public final class LowerCase extends UDF { public Text evaluate(转载 2014-11-26 14:20:42 · 8304 阅读 · 0 评论 -
hive中UDF、UDAF和UDTF使用
http://liubingwwww.blog.163.com/blog/static/30485107201251934922743/转载 2014-11-03 21:08:53 · 479 阅读 · 0 评论 -
map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a转载 2014-09-28 10:59:42 · 497 阅读 · 0 评论 -
hive lateral view explode 使用
select SUPER_SITE_ID, split(tmp.cmapaign,',')[0] as SUPER_CMAPAIGN_ID , split(tmp.cmapaign,',')[2] as SUPER_POSITION from (原创 2014-09-24 17:32:16 · 460 阅读 · 0 评论 -
hive命令行
1.hive执行sql并保存结果到本地hive -S -e "select * froi"原创 2014-11-01 10:25:21 · 342 阅读 · 0 评论 -
Hadoop Mapreduce优先级调度
作业提交到的队列:mapreduce.job.queuename作业优先级:mapreduce.job.priorityPig版本:SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.priority HIGH;Hive版本:SET mapreduce.job.q原创 2014-09-29 15:06:00 · 7777 阅读 · 0 评论 -
hive 对于join条件如何书写
select ${yyyymmdd} as stat_date, COALESCE(c.advertiser_id,' ') as advertiser_id, COALESCE(c.campaign_id,' ') as campaign_id, COALESCE(c.earner_id,' ') as earner_id,原创 2014-10-15 19:07:25 · 621 阅读 · 0 评论 -
Hive 的 distribute by
Order by 能够预期产生完全排序的结果,但是它是通过只用一个reduce来做到这点的。所以对于大规模的数据集它的效率非常低。在很多情况下,并不需要全局排序,此时可以换成Hive的非标准扩展sort by。Sort by为每个reducer产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做原创 2014-10-25 18:11:58 · 633 阅读 · 0 评论 -
hive三种访问方式
1.命令行客户端访问。原创 2014-11-01 10:36:58 · 3910 阅读 · 0 评论