Hive
哈士奇说喵
我的目标是星辰大海啊~
展开
-
总结:Hive,Hive on Spark和SparkSQL区别
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程 执行流程详细解析Step 1:UI(user interface) 调用 executeQuery 接口,发送 H原创 2017-08-04 22:36:07 · 44897 阅读 · 1 评论 -
总结:详细讲解MapReduce过程(整理补充)
关于整理 此文百分之七十摘自我认为讲的很清楚的博客,我都贴了地址,很感谢这些博主的无私奉献!我再将一些自己的实例代码和知识点的补充加入进去,希望能更好的理解mapreduce的整个过程。从启动和资源调度来看MapReduce过程首先-先了解一下必知概念 From:MapReduce工作原理图文详解,JobTracker和TaskTracker概述客户端(Client):编写mapreduc原创 2017-08-06 17:05:16 · 27413 阅读 · 6 评论 -
总结:Hive性能优化上的一些总结
注意,本文百分之九十来源于此文:Hive性能优化,很感谢作者的细心整理,其中有些部分我做了补充和追加,要是有什么写的不对的地方,请留言赐教,谢谢前言 今天电话面试突然被涉及到hive上有没有做过什么优化,当时刚睡醒,迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚,这里顺便转载一篇并来做一下总结介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数原创 2017-07-29 16:25:19 · 43224 阅读 · 10 评论 -
笔记:新手的Hive指南
前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧基础SQL基本语法Python基础语法(HiveStreaming会用到)Java基础语法(写UDF会用到)Hadoop基础(毕竟mapred过程)什么是Hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据原创 2017-07-09 21:37:43 · 8351 阅读 · 1 评论 -
解决:提交的hive任务如何找回其提交的语句
只记得表名或者该任务的一些关键字,忘记了自己创建表时候的语句,可以从hive的执行日志中获取原始数据。特别适合定位该测试表是怎么创建的,或者定位别人表创建的由来首先要确认提交的hive任务是在哪一台服务器提交的,一般默认hive的执行日志会放在提交任务的机器的/data/hive/tmp/{用户名}目录下首先需要切换到root用户,然后切到根目录,不清楚目录结构的请看:Linux...原创 2018-08-26 15:19:02 · 1605 阅读 · 0 评论