hadoop
老笨妞
29岁开始纯软的老笨妞。
展开
-
hadoop内的各种join
今天决定把之前准备放到单台服务器上做的一个算法拿到hadoop里面完成。但是这个算法有两个重点:多次表关联和多次排序。之前用hadoop基本就是清洗数据,hive基本上也是sum和排序问题。由于业务上每个表都比较均匀,所以,一直都是join就ok。 但是最近这个项目,需要从外部导入两个数据量很小的文件,有数据倾斜,于是开始考虑效率问题了。 看了很多别人的博客后,做如下理解:reduce joi原创 2017-09-28 20:38:13 · 1173 阅读 · 0 评论 -
Hive和Hbase
几个还不错的连接: https://www.zhihu.com/question/21677041 http://blog.csdn.net/a2011480169/article/details/51588253 http://www.cnblogs.com/justinzhang/p/4273470.html http://database.51cto.com/art/201008/21转载 2017-10-10 16:47:47 · 270 阅读 · 0 评论 -
hadoop DistributeCache的用法
转载地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/转载 2017-10-11 15:14:11 · 995 阅读 · 0 评论 -
hive向动态分区插入数据
向一个定义了分区的空表中插入数据,命令如下:insert overwrite table t_namepartition (par_1)select t1.field1 as field1, t1.field2 as field2, t1.field3 as par_1from (select * from t3 where par_2=value2) t1 where t1.fiel原创 2017-10-11 14:07:39 · 9246 阅读 · 0 评论 -
hive一些基本操作
字符串操作 http://www.cnblogs.com/iiwen/p/5611761.html函数大全。 http://blog.csdn.net/wisgood/article/details/17376393 函数大全。hive类型转化:cast(‘字段1’ as ‘type1’) in和not in更简洁的处理方式。 hql也可以用in和not in,但是1个in或者not i转载 2017-10-16 17:21:43 · 359 阅读 · 0 评论