Hive
Mr.ChowSit
古人云:survive in disaster perish in comfort
展开
-
Hive优雅的处理Json数据
准备数据1SOH{"name":"aaa","cource":"english","score":"90"},{"name":"bbb","cource":"chinese","score":"80"},{"name":"ccc","cource":"math","score":"70"}2SOH{"name":"aaa","cource":"english","score":"90"}...原创 2020-03-20 18:36:37 · 276 阅读 · 0 评论 -
Hive Merge详解
参考https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Mergehttps://community.cloudera.com/t5/Community-Articles/Hive-ACID-Merge-by-Example/ta-p/245402说明Hiv...原创 2019-10-28 14:53:37 · 38223 阅读 · 0 评论 -
Hive2.3.2源码编译(Centos6.10)
源码包准备【apache-hive-2.3.2-src.tar.gz】略因为之前编译过Hadoop所以整个环境基本不需要新增什么配置,关于hadoop源码编译可以参考我的另一篇博客:Centos下编译:https://blog.csdn.net/DataIntel_XiAn/article/details/98106631Windows下编译:https://blog.csdn...原创 2019-08-10 08:40:39 · 357 阅读 · 0 评论 -
Hive自定义函数UDF(统计字符串个数)
需求统计一个字符串在另一个字符串中出现的次数,比如:"a or b or c"中出现了多少个"or"分析Hive内置函数中并没有可以直接使用的函数,嵌套起来比较麻烦,所以需要自定义实现代码package udf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.had...原创 2019-08-19 19:06:48 · 5101 阅读 · 0 评论 -
Hive自定义聚合函数UDAF(计算中位数)
背景需求中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。准备1~7个乱序数字奇数个数字经过排序【1,2,3,4,5,6,7...原创 2019-08-24 22:30:11 · 5239 阅读 · 0 评论 -
Hive on Spark on Yarn
参考https://cwiki.apache.org/confluence/display/Hive/Hive+on+Sparkhttps://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Startedhttps://cwiki.apache.org/confluence/display/Hive/...原创 2019-08-16 08:54:16 · 3464 阅读 · 0 评论 -
Hive on Tez
参考http://tez.apache.org/install.htmlhttps://cwiki.apache.org/confluence/display/Hive/Hive+on+Tezhttps://cwiki.apache.org/confluence/display/Hive/Hive-Tez+Compatibilityhttps://github.com/apache...原创 2019-08-13 12:41:22 · 2760 阅读 · 0 评论