hive(操作数据库一定要带==;==)
基本概念
- 实质:将HQL转化成MapReduce程序
1)Hive处理的数据存储在HDFS
2)Hive分析数据底层的实现是MapReduce
3)执行程序运行在Yarn上 - 数据存储位置
Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。 - 执行
Hive中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。而数据库通常有自己的执行引擎。 - 数据规模
由于Hive建立在集群上并可以利用MapReduce进行并行计算,因此可以支持很大规模的数据;对应的,数据库可以支持的数据规模较小。
hive安装与部署
- 下载地址
http://archive.apache.org/dist/hive/ - 解压,安装
- 修改/opt/module/hive/conf目录下的hive-env.sh.template名称为hive-env.sh
- 配置hive-env.sh文件
(a)配置HADOOP_HOME路径
(b)配置HIVE_CONF_DIR路径 - Hadoop集群配置
(1)必须启动hdfs和yarn
sbin/start-dfs.sh
sbin/start-yarn.sh
(2)在HDFS上创建/tmp和/user/hive/warehouse两个目录并修改他们的同组权限可写
bin/hadoop fs -mkdir /tmp
bin/hadoop fs -mkdir -p /user/hive/warehouse
bin/hadoop fs -chmod g+w /tmp
bin/hadoop fs -chmod g+w /user/hive/warehouse - 启动hive
$ bin/hive
MySql安装(解压多个文件:unzip mysql-libs.zip)
- 查看mysql是否安装
rpm -qa|grep mysql - 卸载
rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86