Note05 Hive

数据仓库(DW)是面向分析的集成化数据环境,用于决策支持,非易失且时变。它通过抽取、清理和转换来自分散系统的数据。Hive是基于Hadoop的数据仓库工具,提供类SQL查询,常用于大数据分析。Hive的特点包括可扩展性、用户自定义函数和良好容错性。Hive使用HDFS存储数据,通过MapReduce进行查询分析。其安装涉及元数据存储、配置文件修改和连接驱动添加。
摘要由CSDN通过智能技术生成
  1. 什么是数仓
    1.1. 基本概念
    英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环
    境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。
    数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放
    给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因
    1.2. 主要特征
    数据仓库是面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和时
    变的(Time-Variant )数据集合,用以支持管理决策。
    1.2.1. 面向主题
    传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库
    则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析
    利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
    操作型处理(传统数据)对数据的划分并不适用于决策分析。而基于主题组织的数据则不同,它们被划
    分为各自独立的领域,每个领域有各自的逻辑内涵但互不交叉,在抽象层次上对数据进行完整、一致和
    准确的描述。一些主题相关的数据通常分布在多个操作型系统中。
    1.2.2. 集成性
    通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保
    证了数据仓库内的数据关于整个企业的一致性。
    数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过
    统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:
  2. 要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
  3. 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是
    在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。
    下图说明一个保险公司综合数据的简单处理过程,其中数据仓库中与“保险” 主题有关的数据来自于多
    个不同的操作型系统。这些系统内部数据的命名可能不同,数据格式也可能不同。把不同来源的数据存
    储到数据仓库之前,需要去除这些不一致。
    在这里插入图片描述
    1.2.3. 非易失性(不可更新性)
    操作型数据库主要服务于日常的业务操作,使得数据库需要不断地对数据实时更新,以便迅速获得当前
    最新数据,不至于影响正常的业务运作。在数据仓库中只要保存过去的业务数据,不需要每一笔业务都
    实时更新数据仓库,而是根据商业需要每隔一段时间把一批较新的数据导入数据仓库。
    数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及
    基于这些快照进行统计、综合和重组的导出数据。
    数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,
    一旦数据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改
    和删除操作很少。因此,数据经加工和集成进入数据仓库后是极少更新的,通常只需要定期的加载和更
    新。
    1.2.4. 时变性
    数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年
    份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数
    据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情
    况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。
    从这个角度讲,数据仓库建设是一个项目,更是一个过程 。数据仓库的数据随时间的变化表现在以下
    几个方面。
  4. 数据仓库的数据时限一般要远远长于操作型数据的数据时限。
  5. 操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。
  6. 数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。
    1.3. 数据库与数据仓库的区别
    数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别。
    操作型处理,叫联机事务处理 OLTP(On-Line Transaction Processing,),也可以称面向交易的处理
    系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。用户较为关心操
    作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的
    主要手段,主要用于操作型处理。
    分析型处理,叫联机分析处理 OLAP(On-Line Analytical Processing)一般针对某些主题的历史数据
    进行分析,支持管理决策。
    首先要明白,数据仓库的出现,并不是要取代数据库。
    数据库是面向事务的设计,数据仓库是面向主题设计的。
    数据库一般存储业务数据,数据仓库存储的一般是历史数据。
    数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用
    户名、密码等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意引入冗余,
    依照分析需求,分析维度、分析指标进行设计。
    数据库是为捕获数据而设计,数据仓库是为分析数据而设计。
    以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下
    来,这里,可以简单地理解为用数据库记账。数据仓库是分
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值