hive
Cumu_
这个作者很懒,什么都没留下…
展开
-
hive版本wordcount
1. wordcount程序相当于hadoop MapReduce的一个helloworld程序吧,纯的MR代码如下: a.原创 2014-08-19 21:45:55 · 3349 阅读 · 0 评论 -
学习用pyhon写hive udf
1. 最近有个需求是找出一批一年内每个月连续交易额超过10000元的商户,经过hive的一些操作最后数据如下(已省略不需要的字段): m, p, consume, cnt m和p唯一标记商户,consume是12个月的交易额(逗号分割),cnt不用管2. 分析得知用hive原生的一些函数不好处理,那么想到了udf,本来想用java写的,但是java有太多依赖包了,刚好在学python原创 2015-01-20 20:04:54 · 10570 阅读 · 0 评论 -
Hive 数据倾斜总结
本文转载自:http://blog.csdn.net/lovingprince/article/details/7264549几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得转载 2014-10-21 11:35:52 · 1862 阅读 · 1 评论 -
Hive自定义UDF-RowNumber
1. hive0.10及之前的版本没有row_number这个函数,假设我们现在出现如下原创 2014-11-04 19:22:50 · 4065 阅读 · 0 评论 -
MapReduce实现hive join操作
1. hive中join就是一条select语句,其个性原创 2014-10-30 16:08:02 · 4382 阅读 · 0 评论 -
MapReduce实现Distributed by and sort by
1. 用MR实现hive的Distributed by and sort by使用,如:select * from A distributed by a, b,意思就是根据原创 2014-11-11 20:32:12 · 2560 阅读 · 0 评论 -
hadoop+hive+zookeeper+hbase全分布式环境配置
1. hadoop: http://blog.csdn.net/jthink_/article/details/386222972. hive:原创 2014-08-17 17:01:13 · 7071 阅读 · 1 评论 -
hadoop+hive-完全分布式环境搭建
http://blog.csdn.net/jthink_/article/details/38622297http://blog.csdn.net/jthink_/article/details/38623585两个连起来原创 2014-08-17 00:19:32 · 5638 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的原创 2014-08-28 21:33:02 · 71226 阅读 · 6 评论 -
hive安装配置
1. hive是基于hdfs的一个数据仓库原创 2014-08-17 00:05:53 · 6131 阅读 · 4 评论 -
hive-列转行和行转列
1. 假设我们在hive中有两张表,其中一张表是存用户原创 2014-08-26 21:27:51 · 88599 阅读 · 0 评论 -
hive udf写hbase
最近遇到新的需求,需要将hive脚本运行输出的结果存入hbase,故写出一个通用的hive udf来满足该需求,具体代码如下:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableN原创 2016-02-24 10:36:18 · 2625 阅读 · 3 评论