本系列是本人对Hive的学习进行一个整理,主要包括以下内容:
1.HiveQL学习笔记(一):Hive安装及Hadoop,Hive原理简介
2.HiveQL学习笔记(二):Hive基础语法与常用函数
3.HiveQL学习笔记(三):Hive表连接
4.HiveQL学习笔记(四):Hive窗口函数
5.HiveQL学习笔记(五):Hive练习题
接下来对第一个内容进行介绍。说明:本系列主要是Hive的使用,其他Hadoop和Hive的原理仅做简单的描述。
文章参考资料来自:
https://www.bilibili.com/video/BV1L541147tw?p=50
https://www.bilibili.com/video/BV1W4411B7cN?from=search&seid=7987144426054669652
Hive安装
由于Hive在安装前需要安装很多东西,比如虚拟机,Linux系统,Hadoop,MySQL等,这个过程及其繁琐和艰难。由于目的是学习如何使用Hive,而不是搞大数据开发,因此没必要深陷其中。
这里推荐厦大林子雨老师的博客,里面已经安装好了全套的大数据软件,只需要自己安装虚拟机,然后导入即可,非常方便,可以立即展开学习。大数据Linux实验环境虚拟机镜像文件_林子雨
Hadoop原理简介
1.Hadoop是什么
Hadoop是为了解决大数据的存储和计算问题而开发出来的。
关键词:Hadoop是分布式系统。
2.Hadoop生态系统
hadoop:分布式系统框架
hive:数据仓库
mahout:算法库
storm:分布式实时计算框架
hbase:分布式实时列式存储数据库
3.Hadoop架构和组件
hadoop1.x和2.x的区别:
HDFS:分布式文件系统(数据存储)
YARN:资源调度器
MapReduce:分布式计算框架(数据计算 )