数据湖基本概念和发展历史
Hadoop
- 数据湖最开始的概念---分布式存储HDFS
- 好处:同一公司/组织可以使用共享存储;数据访问方便,灵活性高
- 坏处:没有记录文件的schema、难以得知数据集包含哪些文件,是通过什么样的分区组织的、如果多个程序都在修改这个数据集,其他程序难以配合做修改
Hive
- 数据湖的演进---Hive Metastore(元数据存入mysql中)
- 对数据湖中的数据集进行集中定义
- 问题:
- 静态表------读取方便,有写操作,不同用户读取的文件可能不同(读写冲突、写写冲突)
- 对于schema数据,只能在尾列后面增加列而不能删除或修改列------------重写一张表(支持更多样的schema变更)
湖仓一体
数据仓库
- 数据仓库将数据从数据源提取和转换,加载到目的地
- 数据仓库存储+计算不分离
- 数据仓库严格控制写入数据的schema
数据仓库vs数据湖
数据仓库 |
---|