hive

一.数据仓库的介绍

        面向分析的存储系统;

        1.数据仓库和数据库对比分析:

                联系:

                1>.都是用来存储数据,

                2>.数据仓库是数据库的一种衍生,延伸应用

                3>.两者之间存在数据交互,

                区别:

                1>数据库是面向事务,数据仓库是面向主题设计的

                2>.数据库一般存储在线交易,实时性强存储空间有限

                        数据仓库一般存储历史数据,实时性弱但是存储空间庞大

                3>.数据库设计避免冗余,数据仓库有意引入冗余

                4>/数据库为了捕获数据而设计

                        数据仓库为了分析数据而设计

                5>.数据库是OLTP 创建是有三大范式

                        数据仓库是OLAP On-Line Analytical Processing 创建是有维度模型

二.hive产生背景

        定义: Hive是建立在 Hadoop 上的数据仓库基础架构和解决方案

        架构:支持拿来即用,亦支持灵活的参数和计算引擎的变更

        作用: 拿出了数据仓库构建的完整解决方案

        意义: 证明了hdoop的强大,降低了使用hdoop的门槛

三.hive架构设计

嵌入式数据库

随着集体的代码应用而伴随运行的组件,即称为嵌入式组件

四.hive数据模型

        

五.varchar和char对比说明

        相同点:

                都是存储数据的类型

        差异点:

                varchar变长

                        节省存储空间,不利于计算.

                        用时间换空间

                char 定长

                        浪费了存储空间,节省了计算时间

                        用空间换时间

六.请介绍一下hive的内外表

概念说明:

hive将表的分类共两类,即内外表

以元数据和实体数据的操作权限作为分类依据

特点特征:

内表:元数据和实体数据全归Hive管理,一删全删

外表:元数据归hive管,实体数据不归hiv e而是归hdfs,删表的话,只会删除HIV的元数据,不会 改变实体数据.

应用场景:

数据表生成时,如果是hive内部自生成的表则统一设置内表,如果不是自生成的,而是外部导入的,则设置为外表.

代码实现;

create [external] table ........

七.请介绍一下hive当中的视图view

概念说明

Hive当中对数据表数据及关系的一种抽象,称为视图

特点特征:

虚表,只存关系,不存储实际的数据.但是你通过他查出来数据

应用场景:

解耦

解真实用户和各个不同关系表的偶

将复杂的表关系抽象出来,形成一个虚表,相当于将表关系进一步抽象

当这个复杂表关系需要反复利用时,应该利用视图

八.请介绍一下表分区作用

概念介绍

表结构当中为了提升查询效率而水平切分数据的虚字段,称为分区

特点特征

虚字段的设计,并不占用表结构对应的实体数据

其每个分区值对应的hive当中的hdfs存储的一个物理目录.

应用场景;

数据量较大,且具备明显的水平可切分字段,均可使用.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值