一.数据仓库的介绍
面向分析的存储系统;
1.数据仓库和数据库对比分析:
联系:
1>.都是用来存储数据,
2>.数据仓库是数据库的一种衍生,延伸应用
3>.两者之间存在数据交互,
区别:
1>数据库是面向事务,数据仓库是面向主题设计的
2>.数据库一般存储在线交易,实时性强存储空间有限
数据仓库一般存储历史数据,实时性弱但是存储空间庞大
3>.数据库设计避免冗余,数据仓库有意引入冗余
4>/数据库为了捕获数据而设计
数据仓库为了分析数据而设计
5>.数据库是OLTP 创建是有三大范式
数据仓库是OLAP On-Line Analytical Processing 创建是有维度模型
二.hive产生背景
定义: Hive是建立在 Hadoop 上的数据仓库基础架构和解决方案
架构:支持拿来即用,亦支持灵活的参数和计算引擎的变更
作用: 拿出了数据仓库构建的完整解决方案
意义: 证明了hdoop的强大,降低了使用hdoop的门槛
三.hive架构设计
嵌入式数据库
随着集体的代码应用而伴随运行的组件,即称为嵌入式组件
四.hive数据模型
五.varchar和char对比说明
相同点:
都是存储数据的类型
差异点:
varchar变长
节省存储空间,不利于计算.
用时间换空间
char 定长
浪费了存储空间,节省了计算时间
用空间换时间
六.请介绍一下hive的内外表
概念说明:
hive将表的分类共两类,即内外表
以元数据和实体数据的操作权限作为分类依据
特点特征:
内表:元数据和实体数据全归Hive管理,一删全删
外表:元数据归hive管,实体数据不归hiv e而是归hdfs,删表的话,只会删除HIV的元数据,不会 改变实体数据.
应用场景:
数据表生成时,如果是hive内部自生成的表则统一设置内表,如果不是自生成的,而是外部导入的,则设置为外表.
代码实现;
create [external] table ........
七.请介绍一下hive当中的视图view
概念说明
Hive当中对数据表数据及关系的一种抽象,称为视图
特点特征:
虚表,只存关系,不存储实际的数据.但是你通过他查出来数据
应用场景:
解耦
解真实用户和各个不同关系表的偶
将复杂的表关系抽象出来,形成一个虚表,相当于将表关系进一步抽象
当这个复杂表关系需要反复利用时,应该利用视图
八.请介绍一下表分区作用
概念介绍
表结构当中为了提升查询效率而水平切分数据的虚字段,称为分区
特点特征
虚字段的设计,并不占用表结构对应的实体数据
其每个分区值对应的hive当中的hdfs存储的一个物理目录.
应用场景;
数据量较大,且具备明显的水平可切分字段,均可使用.