hive
shell33168
这个作者很懒,什么都没留下…
展开
-
Hive
apache的顶级项目 【1.为什么MR的执行性能低?】 1.map和reduce以一个进程来运行的,启动和销毁进程开销大;spark是线程级别的; 2.当Map开始产生输出时,它并不是简单的把数据写到磁盘,因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂,数据首先是写到内存中的一个缓冲区,并做了一些预排序,以提升效率。 【2.Mapreduce的思想】 map完成之后,为了确...原创 2019-03-01 00:41:42 · 231 阅读 · 0 评论 -
DML
Load LOAD DATA [LOCAL] INPATH'filepath'[OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2...)] create table dept( deptno int, dname string, location string ) row format de...原创 2019-03-08 09:58:11 · 235 阅读 · 0 评论 -
Hive SQL执行流程分析
为什么Hive SQL要分析过程 sql执行非常慢 sql执行的步骤 Predicate Push Down 和MapJoin发生在逻辑执行计划还是物理执行计划? group by的过程 mapreduce count过程: split ==> (word,1) shuffle:(word,1) partition ==> reduce reduce:(word,可迭代的...原创 2019-04-16 23:53:56 · 449 阅读 · 0 评论 -
Hive UDF && hive对应的MYSQL关系表
分类: UDF:一行对一行的映射(一行进来,一行出去) UDAF:many to one 多进一出 UDTF:Table-generating 一进多出 如lateral view explode() UDF的临时函数只对当前session有效 ...原创 2019-04-17 03:21:08 · 205 阅读 · 0 评论