数据仓库和数据库的理解:
数据库:是存储没有经过任何加工的原始数据的,通过数据库软件实现。数据库有很多表组成,每张表里面又有很多字段,因此能够通过表的二维来表现三维的关系。
数据仓库:是为了满足数据分析需要设计的,存储的是经过ETL过程的数据,能够反映相当长一段时间内的历史数据内容,是不同时间点数据库快照的集合。
数据仓库和数据库的区别:
1.数据库是面向事务的设计,数据仓库是面向主题设计的。
2.数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
3.数据库设计是尽量避免冗余,数据仓库在设计是有意引入冗余。
4.数据库是为捕获数据而设计,数据仓库是为分析数据而设计。
数仓的分层架构:
数据仓库架构可分为三层﹣﹣源数据层、数据仓库层、数据应用层
数据库操作的基本命令语法:
SELECT - 从数据库中提取数据
UPDATE - 更新数据库中的数据
DELETE - 从数据库中删除数据
INSERT INTO - 向数据库中插入新数据
CREATE DATABASE - 创建新数据库
ALTER DATABASE - 修改数据库
CREATE TABLE - 创建新表
ALTER TABLE - 变更(改变)数据库表
DROP TABLE - 删除表
CREATE INDEX - 创建索引(搜索键)
DROP INDEX - 删除索引
Hive中支持的数据类型:
对比内部表和外部表: