Hive简介
Hive是由Facebook的数据组开发维护的,在Facebook内部使用之后,被移交给Apache基金会。
Hive是建立在Hadoop之上的数据仓库,其使用MapReduce对存储于HDFS之上的数据进行分析。Hive可以缩短MapReduce的开发周期,它定义了一种类SQL的查询语言,称之为HiveQL.Hive使用HiveQL表述查询操作,并立即将其自动转化为一个或者多个MapReduce作业。
Hive技术在操作层面存在的最大的限制是:执行查询语句的效率很低,任务是高延迟性的。
Hive不提供数据排序和查询cache功能,不提供在线事务处理,也不提供实时的查询和记录级的更新。
Hive最大的价值是可扩展性(基于Hadoop平台,可以自动适应机器的数目和数据量的动态变化),可延展性(结合MapReduce和用户定义的函数库),良好的容错性和低约束的数据输入格式。
Hive系统中不存在主节点,从节点,其以客户端应用程序的形式运行,负责处理HiveQL语句,将查询语句转换成MapReduce作业,并将作业提交到Hadoop集群。
通常情况下,Hive需要一个现有的正在运行的Hadoop集群来配合运行MapReduce作业。
Hive可以在符合下列条件的任何主机上执行:
(1)安装了Hadoop的主机(即使主机上没有正在运行的进程);
(2)把HADOOP_HOME环境变量的值设定为Hadoop的安装目录的主机;
(3)系统路径或用户路径中出现${HADOOP_HOME}/bin目录的主机。
Hive安装
1.解压缩安装包sudo tar -zxvf apache-hive-1.0.0-bin.tar.gz -C /opt
2.简化解压缩后的文件夹名
sudo mv apache-hive-1.0.0-bin/ hive