一、Hive是什么?
Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析与管理。可以通俗的理解为:
对于存储在HDFS中的数据进行分析与管理时,我们不想使用手工,从而建立一个工具来进行相应的操作,这个工具就是hive。
数据仓库:数据仓库的本质就是收集尽可能多的信息,用作公司的决策支持。数据仓库一般是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
hive与hadoop的关系
Hive产生的背景与历程
Hive典型应用场景
日志分析
统计网站一个时间段内的pv 、uv
多维度数据分析
大部分互联网公司使用Hive 进行日志分析,包括百度等 、淘宝等
其他场景
海量结构化数据离线分析
低成本进行数据分析(不直接编写MR)
Hive学习路线
二、hive的内嵌模式安装1、设置环境变量
vi /etc/profile 添加环境变量值
export HIVE_HOME=/home/hadoopM/hive-2.1.0
export PATH = $HIVE_HOME/bin:$PATH
使之生效: source /etc/profile
2、修改配置文件:
cp hive-env.sh.template hive-env.sh
vi hive-env.sh 将hadoop的安装路径配置上去
# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/home/centosm/hadoopM
cp hive-default.xml.template hive-site.xml(修改hive运行时日志的输出路径,先创建本地文件:/home/centosm/hive/hivelog)
vi hive-site.xml
<property>
<name>hive.querylog.location</name>
<value>/home/centosm/hive/hivelog</value>
<description>Location of Hive run time structured log file</description>
</property>
<property>
<name>hive.exec.local.scratchdir</name>
<value>/home/centosm/hive/hivelog</value>
<description>Local scratch space for Hive jobs</description>
</property>
<property>
<name>hive.downloaded.resources.dir</name>
<value>/home/centosm/hive/hivelog</value>