hive
天地不仁以万物为刍狗
天之道,损有余而补不足
人之道,损不足以奉有馀
展开
-
Hive - 自定义函数 UDF UDAF UDTF
1、UDF:用户定义(普通)函数,只对单行数值产生作用;继承UDF类,添加方法 evaluate()/** * @function 自定义UDF统计最小值 * @author John * */ public class Min extends UDF { public Double evaluate(Double a, ...转载 2019-02-20 09:21:38 · 279 阅读 · 0 评论 -
Hive外表批量添加分区
简介我们有一批日志数据存储在hdfs上,按天创建目录,如2018-07-31的日志hdfs路径为:/data/logs/gateway/20180731。现在要用hive分析数据,同时要保证这些数据目录不能改变,就需要hive用外表的方式与这些数据进行关联创建外表CREATE EXTERNAL TABLE `gateway_analysis`( `s_t` bigint, ...转载 2019-06-19 14:36:40 · 2194 阅读 · 0 评论 -
hive中创建hive-json格式的表及查询
在hive中对于json的数据格式,可以使用get_json_object或json_tuple先解析然后查询。也可以直接在hive中创建json格式的表结构,这样就可以直接查询,实战如下(hive-2.3.0版本):1. 准备数据源将以下内容保存为test.txt{"student":{"name":"king","age":11,"sex":"M"},"class":{"bo...转载 2019-06-19 15:00:09 · 1711 阅读 · 0 评论 -
Hive小文件合并
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个问题的阐述可以读一读Cloudera的这篇文章。简单来说,HDFS的文件元信息,包括位置、大小、...转载 2019-07-03 17:25:49 · 1594 阅读 · 0 评论