Hadoop之Hive简介与安装、测试(一)

本文介绍了Hive作为Hadoop数据仓库工具的作用,主要用于大规模结构化数据的离线分析。详细步骤包括:环境变量配置、内嵌模式的安装、Hive的元数据初始化、创建测试表、数据导入与查询。此外,还提到了本地模式的安装,强调了元数据存储在外部MySQL数据库中的特点。
摘要由CSDN通过智能技术生成

一、Hive是什么?

Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析与管理。可以通俗的理解为:
   对于存储在HDFS中的数据进行分析与管理时,我们不想使用手工,从而建立一个工具来进行相应的操作,这个工具就是hive。
   数据仓库:数据仓库的本质就是收集尽可能多的信息,用作公司的决策支持。数据仓库一般是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

hive与hadoop的关系 

Hive产生的背景与历程 

Hive典型应用场景

日志分析  

   统计网站一个时间段内的pv 、uv

   多维度数据分析

   大部分互联网公司使用Hive 进行日志分析,包括百度等 、淘宝等

其他场景

   海量结构化数据离线分析

   低成本进行数据分析(不直接编写MR)

Hive学习路线 

二、hive的内嵌模式安装1、设置环境变量

vi /etc/profile 添加环境变量值
  export HIVE_HOME=/home/hadoopM/hive-2.1.0
  export PATH = $HIVE_HOME/bin:$PATH
  使之生效: source /etc/profile

2、修改配置文件:

cp hive-env.sh.template hive-env.sh
vi  hive-env.sh  将hadoop的安装路径配置上去
# Set HADOOP_HOME to point to a specific hadoop install directory
  HADOOP_HOME=/home/centosm/hadoopM


cp hive-default.xml.template hive-site.xml(修改hive运行时日志的输出路径,先创建本地文件:/home/centosm/hive/hivelog)

vi hive-site.xml

<property>
    <name>hive.querylog.location</name>
    <value>/home/centosm/hive/hivelog</value>
    <description>Location of Hive run time structured log file</description>
  </property>

  <property>
    <name>hive.exec.local.scratchdir</name>
    <value>/home/centosm/hive/hivelog</value>
    <description>Local scratch space for Hive jobs</description>
  </property>

  <property>
    <name>hive.downloaded.resources.dir</name>
    <value>/home/centosm/hive/hivelog</value>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值