hive insert into 慢_大白话详解大数据hive知识点,老刘真的很用心(1)

本文详细介绍了数据仓库的概念、特征,特别是Hive在大数据处理中的作用,包括Hive与数据库的区别、数据仓库分层、Hive的架构、DDL操作以及分区表的使用。通过实例讲解了Hive的建表、数据导入和分区操作,强调实践中掌握Hive的重要性。
摘要由CSDN通过智能技术生成

0872b42320571b0cdae83092eb7c7f5e.png

2e3bf83c8c96b9ff9e110d5dbe43158d.png
前言:老刘不敢说写的有多好,但敢保证尽量用大白话把自己复习的知识点详细解释出来,
拒绝资料上的生搬硬套,做到有自己的了解!

01 hive知识点(1)

7a6c80dc4fbd45be4314b3f60e871bea.png

第1点:数据仓库的概念

由于hive它是基于hadoop的一个数据仓库工具,老刘先讲讲数据仓库的一些东西,再开始讲hive。

数据仓库,听名字就知道它是用来存放数据的一个仓库,仓库不同于工程,仓库只用来存放东西,不生产,也不消耗。

精简的讲,数据仓库它本身不生产数据,也不会消耗数据,数据从外部来,供给外部使用,主要用于数据分析,对企业的支持决策做一些辅助。

第2点:数据仓库的特征

数据仓库有4个特征:

面向主题的:就是说它都是有目的的进行构建数据仓库,用它干某件事;

集成的:就是说将所有用到的数据都集成到一起;

非易失的:就是说里面的数据一般都不会改变;

时变的:就是说随着时间的发展,数据仓库的分析手段也会发生改变。

第3点:数据仓库和数据库的区别

看到之前讲的数据仓库概念就知道,这两个区别大了。

首先举个例子,客户在银行做的每笔交易都会写入数据库,被记录下来,就相当于用数据库记账。

而数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的一些依据。

比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又少,消费交易又多,那么该地区就有必要设立ATM了。

接着要说的是,数据库和数据仓库的区别实际上讲的是OLTP和OLAP的区别。

操作性处理,OLTP联机事务处理,也可以叫做面向交易的处理系统,它是针对于具体业务在数据库联机的日常操作,通常对记录进行查询、修改,人们一般关心操作的响应时间、数据是否安全、完整和并发的相关问题。

分析型处理,联机分析处理OLAP,一般针对于某些主题的历史数据进行分析,支持管理决策。

总结一下就是,数据仓库的出现,不是为了取代数据库。

数据库是面向事务的设计,数据仓库是面向主题的设计。

数据库存储的一般是业务数据,数据仓库存储的一般是历史数据。

数据库是为了捕获数据设计的,而数据仓库是为了分析数据设计的。

还有一点就是,数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了进行决策而产生的。

第4点:数据仓库分层

首先说说数据仓库可分为三层:

源数据层(ODS):它主要用于保管我们的原始数据;

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值