hive
kuanner
大数据架构
展开
-
hive 优化
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在m...原创 2020-08-26 20:29:02 · 251 阅读 · 0 评论 -
hive 使用小知识
1.udf快速入手:a,小程序开发// 科学计数法 换成正常2位小数 public class changeNumUDF extends UDF { public String evaluate(double number){ String str=new DecimalFormat("0.00").format(number); //Strin...原创 2018-07-10 17:32:09 · 197 阅读 · 0 评论 -
hive常用时间转换
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,'yyyyM...原创 2018-07-12 14:22:31 · 5809 阅读 · 0 评论 -
hive on es
ES 和 hive数据间转换比较麻烦,通常是jdbc 连hive,用ES api入数。现可用快捷的hive on ES:1.创建index curl -X PUT "localhost:9200/kk_hive_es " -H 'Content-Type: application/json' -d'{"settings":{"number_of_shards": 3,"number_of_repl...原创 2018-07-14 10:29:19 · 1496 阅读 · 1 评论