Hive
文章平均质量分 79
当法律与事业相遇
做过程序员,目前是律师
展开
-
08-Hive高级查询join
声明:我的朋友,这一篇不要转载,因为你可以直接在这里看。大家好,我们今天来学习Hive高级查询join语法。你有没有期待把Hive学完整?我打算写完整,只要我知道。我写的都是比较接地气的,因为高大上的我知道的少。砸门一起加油进步吧!1 我们先回顾一下上一节课说的。上一节我们知道了:order by是一个全局的操作,groupby是一个聚合的操作。避免数据倾斜的方法之一是设置参数:hive.group原创 2016-06-06 21:06:16 · 1409 阅读 · 0 评论 -
01-Hive创建表
声明:本实验环境是Apache hadoop-2.2.0,zookeeper-3.4.5,mysql Server version: 5.1.73作为元数据库,hive版本是apache-hive-0.9.0-bin,都是apache,不是CDH和其他。本实验集群3台,一个主节点(hadoop1),三个从节点(hadoop1,hadoop2,hadoop3),zk在三个节点中都安装。本实验的数据都是原创 2016-06-02 10:48:37 · 20521 阅读 · 1 评论 -
02-Hive一个表创建另一个表,表分区,分桶
声明:如果你是初学者,看我这篇文章的时候,看我上一篇会更好。 Hive表的创建:http://blog.csdn.net/qq_29622761/article/details/51564680这篇的主要内容目录是:由一个表创建另一个表hive不同文件读取对比hive分区表hive分桶你现在开始吧! 1. 由一个表创建另一个表 格式:ceate table test3 like te原创 2016-06-02 12:32:07 · 13842 阅读 · 2 评论 -
04-Hive数据导出
大家好!砸门又见面了。今天来玩一下Hive数据导出。 导出的方式有以下几种 1)hadoop命令的方式 get text 2)通过insert…directory方式insert overwrite[local] directory '/tmp/ca employees'[row format delimited fields terminated by '\t']se原创 2016-06-02 17:44:57 · 951 阅读 · 1 评论 -
05-Hive动态分区
大家好!砸门又见面了。我先作一个自我介绍吧。我是一个打算学习大数据一万小时的谢老师,目前学习了800多小时了,现在正在努力。 今天来玩的实验是:Hive分区表的动态分区分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入原创 2016-06-02 20:57:54 · 1768 阅读 · 0 评论 -
06-Hive表属性操作
大家好!砸门又又又又见面了。我再自我介绍一下哈,我长得比较帅,帅到哭的那种。 呵呵,开玩笑。这世界上,唯独美人和大数据不可辜负。好好学大数据技术,技多不压身。越学人就越帅,你说是吧?言归正传,今天要做的实验是Hive表属性操作。 表属性有啥?表名称、增加列,修改列呀!修改表名alter table table_name rename to new_table_name;修改列名alter tab原创 2016-06-02 22:19:38 · 7451 阅读 · 0 评论 -
07-Hive高级查询order by、group by
声明:未经本人允许,不得转载哦!哈喽,大家好。这两天就要高考了,我原本是一名物理老师,这一届初高中的学生带完,估计就要开始找大数据岗位的工作了。目前掌握的是技能有java+linux++mysql+hadoop+hive+hbase,正在学习的是shell,计划2016年接着要学习的是scala+spark。祝我好运吧。今天我们一起来学习的是【Hive高级查询group、order语法】。话不多说,原创 2016-06-06 18:16:35 · 11001 阅读 · 3 评论 -
03-Hive数据加载的几种方式
声明:前面两篇文章已经知道了如何创建表 现在我们来学习Hive数据加载不得不说一个知识点:hive -help、hive –help 、 hive –service -help[root@hadoop1 host]# hive -helpusage: hive -d,--define <key=value> Variable subsitution to apply to原创 2016-06-02 17:11:36 · 8664 阅读 · 0 评论 -
09-Hive查询操作Distributed by 和sort by
声明: 哈喽,大家好,我是谢老师。 今天来学习的是Distributed by 和sort by语法。首先还是要来回顾一下上一讲所学的join和mapjoin操作。mapjoin会比join快很多,数据量很小的时候优势不明显,数据量很大的时候就快很多了。mapjoin其实就是join的优化。很多人都说Hive语法很简单,跟写sql语句差不多,但是hive优化就比较难了,这一点我也感觉到了。 那原创 2016-06-06 21:57:42 · 15402 阅读 · 0 评论