数据仓库Hive的简介与应用

本文介绍了Hive作为数据仓库工具的功能和作用,详细阐述了Hive的数据处理分类、应用、架构原理,包括HQL的DDL和DML语句、Hive SerDe、分区和动态分区等特性。此外,还探讨了Hive的优化策略和与Hbase的整合方法。
摘要由CSDN通过智能技术生成

Hive

简介

Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化的数据文件映射为一张hive数据库表,并提供简单的 sql 查询功能,可以将 hql 语句转换为 MapReduce 任务进行运行。

数据处理的分类

  • 联机事务处理(OLTP)
    • 传统业务逻辑的处理
  • 联机分析处理(OLAP)
    • 数据仓库系统的主要应用

Hive的应用

Hive是一款数据仓库工具

数据仓库

​ 【数据仓库】英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制.

  • 数据仓库是用来做查询分析的数据库,基本不用来做插入,修改,删除操作。

  • 使用HQL语句转化为MapReduce任务,从而得到想要的数据

Hive架构原理

  • 用户接口

    • CLI命令行模式
    • JDBC连接
    • Web GUI
  • 元数据存储在metastore中,一般以mysql等数据库为载体

  • Hive的数据存储在HDFS中

  • 计算由MapReduce完成

HQL

Hive的查询语言,与SQL(结构化查询语言)类似

DDL数据定义语句

数据库增删改查语句

表的增删改查语句

DML数据操作语句

四种导入/插入语句

  • LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)]

  • INSERT OVERWRITE TABLE person2 [PARTITION(dt=‘2008-06-08’, country)] SELECT id,name, age From ppt;

  • FROM person t1 INSERT OVERWRITE TABLE person1 [PARTITION(dt=‘2008-06-08’, country)] SELECT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值