hadoop中hive原理及安装

hive是什么(官网概念)

Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。

Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;
一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;
Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;
允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作;

Hive没有专门的数据格式(分隔符等可以自己灵活的设定);

适用场景

Hive不适用于在线事务处理。  它最适用于传统的数据仓库任务

hive的执行延迟比较高,因为hive常用于数据分析的,对实时性要求不高;

hive优势在于处理大数据,对于处理小数据没有优势,因为hive的执行延迟比较高。

Hive工作原理

1 Execute Query
Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。
2 Get Plan
在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。
3 Get Metadata
编译器发送元数据请求到Metastore(任何数据库)。
4 Send Metadata
Metastore发送元数据,以编译器的响应。
5 Send Plan
编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。
6 Execute Plan
驱动程序发送的执行计划到执行引擎。
7 Execute Job
在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker,在名称节点并把它分配作业到TaskTracker,这是在数据节点。在这里,查询执行MapReduce工作。
7.1 Metadata Ops
与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。
8 Fetch Result
执行引擎接收来自数据节点的结果。
9 Send Results
执行引擎发送这些结果值给驱动程序。
10 Send Results

驱动程序将结果发送给Hive接口。

hadoop中实际应用 

    通过上面流程解释,要想在hadoop中使用hive, 至少需要安装hive和Metastore(任何数据库)本文安装mysql 。

    1 , 安装mysql

            下载linux环境下的mysql安装包,需要两个,一个是server端的,一个是client端的。

             查询linux机器上默认安装的mysql或者你以前安装的mysql, 暴力卸载之 。

             rpm -e mysql-libs-5.xxxxxx_i686  --nodeps

             执行安装命令

             rpm -ivh Mysql-server-xxx.i386.rpm

             rpm -ivh Mysql-client-xxx.i386.rpm   

            执行命令初始化设置mysql

    /usr/bin/mysql_secure_installation

        

             使用客户端登陆

             mysql -uroot -proot

             登陆成功后输入命令:(授予mysql远程用户连接的权限)

             GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;

            

     使用远程客户端连接(navicat 或 Advanced Query Tools等等工具  )我用的navicat,  如图自行领悟。

        

2, 安装hive

2.1 下载并安装hive安装包

http://hive.apache.org/downloads.html

2.2 配置环境变量,编辑/etc/profile
#set hive env
export HIVE_HOME=/usr/app/hive
export PATH=${HIVE_HOME}/bin:$PATH

#让环境变量生效
2.3 配置元数据库信息   vi  hive-site.xml 
添加如下内容:

<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
<description>password to use against metastore database</description>
</property>
</configuration>
    

2.4.安装hive和mysq完成后,将mysql的连接jar包拷贝到$HIVE_HOME/lib目录下
    如果出现没有权限的问题,在mysql授权(在安装mysql的机器上执行)
    mysql -uroot -p
    #(执行下面的语句  *.*:所有库下的所有表   %:任何IP地址或主机都可以连接)
    GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;
    FLUSH PRIVILEGES;

2.5. Jline包版本不一致的问题,需要拷贝hive的lib目录中jline.2.12.jar的jar包替换掉hadoop中的 
/usr/app/hadoop-2.6.4/share/hadoop/yarn/lib/jline-0.9.94.jar


启动hive
bin/hive

介绍几个简单hive命令:

建表(默认是内部表)

    create table trade_detail(id bigint, account string, income double, expenses double, time string) row format delimited fields terminated by '\t';
    建分区表
    create table td_part(id bigint, account string, income double, expenses double, time string) partitioned by (logdate string) row format delimited fields terminated by '\t';
    建外部表
    create external table td_ext(id bigint, account string, income double, expenses double, time string) row format delimited fields terminated by '\t' location '/td_ext';

.创建分区表
    普通表和分区表区别:有大量数据增加的需要建分区表
    create table book (id bigint, name string) partitioned by (pubdate string) row format delimited fields terminated by '\t'; 

    分区表加载数据
    load data local inpath './book.txt' overwrite into table book partition (pubdate='2010-08-22');
    
    load data local inpath '/root/data.am' into table beauty partition (nation="USA");

到这里hive就安装搭建完成了!

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值