Hive基础

Hive是一个基于Hadoop的数据仓库工具,提供SQL查询功能来处理结构化数据。它将SQL转化为MapReduce任务,提高分析效率。Hive的元数据通常存储在MySQL中,包括表名、列、分区等信息。Hive与传统数据库的主要区别在于,它适用于分析型处理,而非事务操作。Hive开发流程包括数据获取、存储、SQL开发、调度和数据导出。数据存储涉及ODS、DW和DA层,而Hive SQL涵盖DML、DDL、外表与内表、分区和分桶,以及UDF。
摘要由CSDN通过智能技术生成

hive的基本简介

hive概念:基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Hive利用HDFS存储数据,利用mapreduce查询分析数据,本质是将SQL转换为mapreduce程序,比直接使用mapreduce开发效率高。


hive的元数据存储:通常存在关系数据库中,如mysql.hive中将元数据存储在数据库中,hive的源数据包括表名称,表的列,表分区,表属性,其中表属性(是否为外部表等),表的数据所在目录等。


hive与传统DB的区别:

传统数据库:OLTP->面向事务操作型处理,就是关系型数据库mysql,oracle,sqlserver,db2。主要是支持业务,面向业务。

Hive:OLAP->面向分析分析型处理,就是数据仓库,面对的是历史数据开展分析。


Hive数仓开发基本流程

  1. 从业务系统获取数据
  2. 数据存储
  3. 写SQL开发需求
  4. 配置调度系统
  5. 导出数据&展示

从业务系统获取数据的几种方法

  1. sqoop导入数据库的数据:sqoop可以在Hive与传统的数据库之间进行数据的传递,可以将一个关系型数据库中的数据导进到hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
  2. Flume采集文本数据&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值