hive

最新推荐文章于 2022-04-10 09:50:24 发布

程序猿小飞

最新推荐文章于 2022-04-10 09:50:24 发布

阅读量222

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/qq_43617838/article/details/87261251

版权

hive 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

hive （数据仓库工具）

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

hive的基本思想：

hive是基于Hadoop的一个数据创库工具，可以将一个结构化的数据文件映射为一张数据库表并提供类sql查询功能。
在这里插入图片描述

为什么要使用hive：

直接使用hadoop使用的所面临的问题：
1.人员学习成本高
2.项目周期要求短
3.MapReduce实现复杂查询的逻辑开发难度太大

使用hive的好处：
1.提供接口采用类sql语法，提供快速开发能力。
2.避免了去写MapReduce，减少开发人员学习成本。
3.功能扩展很方便。

hive的特点：

可扩展：
hive可以自由扩展集群的规模，一般情况下不需要重启服务。

延展性：
hive支持用户自定义函数，用户根据自己的需求来实现自己的函数。

容错：
良好的容错性，节点出现错误sql仍可以完成执行。

Hive常见的应用场景

(1)日志分析：大部分互联网公司使用hive进行日志分析，包括百度、淘宝等。

1)统计网站一个时间段内的pv、uv

2)多维度数据分析

(2)海量结构化数据离线分析

Hive的特点（优缺点）

（一）hive的优点
(1)简单容易上手：提供了类SQL查询语言HQL

(2)可扩展：为超大数据集设计了计算/扩展能力（MR作为计算引擎，HDFS作为存储系统）

一般情况下不需要重启服务Hive可以自由的扩展集群的规模。

(3)提供统一的元数据管理

(4)延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

(5)容错：良好的容错性，节点出现问题SQL仍可完成执行

（二）hive的缺点（局限性）
(1)hive的HQL表达能力有限

1)迭代式算法无法表达，比如pagerank

2)数据挖掘方面，比如kmeans

(2)hive的效率比较低

1)hive自动生成的mapreduce作业，通常情况下不够智能化

2)hive调优比较困难，粒度较粗

3)hive可控性差

原著：
https://www.cnblogs.com/zimo-jing/p/9028949.html

hive建库建表与数据导入
5.1. 建库
hive中有一个默认的库：
库名： default
库目录：hdfs://hdp20-01:9000/user/hive/warehouse

新建库：
create database db_order;
库建好后，在hdfs中会生成一个库目录：
hdfs://hdp20-01:9000/user/hive/warehouse/db_order.db

5.2. 建表
5.2.1. 基本建表语句

创建表
use db_order;
create table t_order(id string,create_time string,amount float,uid string);
表建好后，会在所属的库目录中生成一个表目录
/user/hive/warehouse/db_order.db/t_order
只是，这样建表的话，hive会认为表数据文件中的字段分隔符为 ^A

正确的建表语句为：
create table t_order(id string,create_time string,amount float,uid string)
row format delimited
fields terminated by ‘,’;

这样就指定了，我们的表数据文件中的字段分隔符为 “,”
5.2.2. 删除表
drop table t_order;
删除表的效果是：
hive会从元数据库中清除关于这个表的信息；
hive还会从hdfs中删除这个表的表目录；

5.2.3. 内部表与外部表
内部表(MANAGED_TABLE)：表目录按照hive的规范来部署，位于hive的仓库目录/user/hive/warehouse中

外部表(EXTERNAL_TABLE)：表目录由建表用户自己指定
create external table t_lxq (ip string,url string,access_time string)
row format delimited
fields terminated by ‘,’
location ‘/lxq /log’;
外部表和内部表的特性差别：
1、内部表的目录在hive的仓库目录中 VS 外部表的目录由用户指定
2、drop一个内部表时：hive会清除相关元数据，并删除表数据目录
3、drop一个外部表时：hive只会清除相关元数据；

一个hive的数据仓库，最底层的表，一定是来自于外部系统，为了不影响外部系统的工作逻辑，在hive中可建external表来映射这些外部系统产生的数据目录；
然后，后续的etl操作，产生的各种表建议用managed_table

5.2.4. 分区表
分区表的实质是：在表目录中为数据文件创建分区子目录，以便于在查询时，MR程序可以针对分区子目录中的数据进行处理，缩减读取数据的范围。

比如，网站每天产生的浏览记录，浏览记录应该建一个表来存放，但是，有时候，我们可能只需要对某一天的浏览记录进行分析
这时，就可以将这个表建为分区表，每天的数据导入其中的一个分区；
当然，每日的分区目录，应该有一个目录名（分区字段）
5.2.4.1. 一个分区字段的实例：
示例如下：
1、创建带分区的表
create table t_access(ip string,url string,access_time string)
partitioned by(dt string)
row format delimited
fields terminated by ‘,’;
注意：分区字段不能是表定义中的已存在字段

2、linux向分区中导入数据
load data local inpath ‘/root/access.log.2017-08-04.log’ into table t_access partition(dt=‘20170804’);
load data local inpath ‘/root/access.log.2017-08-05.log’ into table t_access partition(dt=‘20170805’);
hdfs向分区导入数据：
load data inpath ‘/lxq/…’ into table t_access partition(dt =‘20170805’);

3、针对分区数据进行查询
a、统计8月4号的总PV：
select count(*) from t_access where dt=‘20170804’;
实质：就是将分区字段当成表字段来用，就可以使用where子句指定分区了

b、统计表中所有数据总的PV：
select count(*) from t_access;
实质：不指定分区条件即可

5.2.4.2. 多个分区字段示例
建表：
create table t_partition(id int,name string,age int)
partitioned by(department string,sex string,howold int)
row format delimited fields terminated by ‘,’;

导数据：
load data local inpath ‘/root/p1.dat’ into table t_partition partition(department=‘taiyuan’,sex=‘male’,howold=20);

5.2.5. CTAS建表语法
可以通过已存在表来建表：
1、create table t_user_2 like t_user;
新建的t_user_2表结构定义与源表t_user一致，但是没有数据

2、在建表的同时插入数据
create table t_access_user
as
select ip,url from t_access;
t_access_user会根据select查询的字段来建表，同时将查询的结果插入新表中

5.3. 数据导入导出
5.3.1. 将数据文件导入hive的表
方式1：导入数据的一种方式：
手动用hdfs命令，将文件放入表目录；

方式2：在hive的交互式shell中用hive命令来导入本地数据到表目录
hive>load data local inpath ‘/root/order.data.2’ into table t_order;

方式3：用hive命令导入hdfs中的数据文件到表目录
hive>load data inpath ‘/access.log.2017-08-06.log’ into table t_access partition(dt=‘20170806’);

注意：导本地文件和导HDFS文件的区别：
本地文件导入表：复制
hdfs文件导入表：移动

5.3.2. 将hive表中的数据导出到指定路径的文件
1、将hive表中的数据导入HDFS的文件
insert overwrite directory ‘/root/access-data’
row format delimited fields terminated by ‘,’
select * from t_access;

2、将hive表中的数据导入本地磁盘文件
insert overwrite local directory ‘/root/access-data’
row format delimited fields terminated by ‘,’
select * from t_access limit 100;