Hadoop之Hive简介与安装、测试（一）

最新推荐文章于 2024-05-28 10:55:52 发布

爱学习的小肥猪

最新推荐文章于 2024-05-28 10:55:52 发布

阅读量373

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/heima201907/article/details/103366373

版权

本文介绍了Hive作为Hadoop数据仓库工具的作用，主要用于大规模结构化数据的离线分析。详细步骤包括：环境变量配置、内嵌模式的安装、Hive的元数据初始化、创建测试表、数据导入与查询。此外，还提到了本地模式的安装，强调了元数据存储在外部MySQL数据库中的特点。

摘要由CSDN通过智能技术生成

一、Hive是什么？

Hive是一种建立在Hadoop文件系统上的数据仓库架构，并对存储在HDFS中的数据进行分析与管理。可以通俗的理解为：
对于存储在HDFS中的数据进行分析与管理时，我们不想使用手工，从而建立一个工具来进行相应的操作，这个工具就是hive。
数据仓库：数据仓库的本质就是收集尽可能多的信息，用作公司的决策支持。数据仓库一般是不可更新的，数据仓库主要是为决策分析提供数据，所涉及的操作主要是数据的查询；一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

hive与hadoop的关系

Hive产生的背景与历程

Hive典型应用场景

日志分析

统计网站一个时间段内的pv 、uv

多维度数据分析

大部分互联网公司使用Hive 进行日志分析，包括百度等、淘宝等

其他场景

海量结构化数据离线分析

低成本进行数据分析（不直接编写MR)

Hive学习路线

二、hive的内嵌模式安装1、设置环境变量

vi /etc/profile 添加环境变量值
  export HIVE_HOME=/home/hadoopM/hive-2.1.0
  export PATH = $HIVE_HOME/bin:$PATH
  使之生效： source /etc/profile

2、修改配置文件：

cp hive-env.sh.template hive-env.sh
vi  hive-env.sh  将hadoop的安装路径配置上去
# Set HADOOP_HOME to point to a specific hadoop install directory
  HADOOP_HOME=/home/centosm/hadoopM

cp hive-default.xml.template hive-site.xml（修改hive运行时日志的输出路径，先创建本地文件：/home/centosm/hive/hivelog）

vi hive-site.xml

<property>
<name>hive.querylog.location</name>
<value>/home/centosm/hive/hivelog</value>
<description>Location of Hive run time structured log file</description>
  </property>

  <property>
<name>hive.exec.local.scratchdir</name>
<value>/home/centosm/hive/hivelog</value>
<description>Local scratch space for Hive jobs</description>
  </property>

  <property>
<name>hive.downloaded.resources.dir</name>
<value>/home/centosm/hive/hivelog</value>