元数据
文章平均质量分 90
张永清-老清
软件开发/测试
展开
-
《数据资产管理核心技术与应用》读书笔记-第二章:元数据的采集与存储
所以Iceberg在底层通过架构设计时增加了元数据层这一设计来规避Hive数据仓库的不足,如下图所示,从图中可以看到Iceberg使用了两层设计来持久化数据,一层是元数据层,一层是数据层,在数据层中存储是Apache Parquet、Avro或ORC等格式的实际数据,在元数据层中可以有效地跟踪数据操作时删除了哪些文件和文件夹,然后扫描数据文件统计数据时,就可以确定特定查询时是否需要读取该文件以便提高查询的速度。提到Delta Lake 就不得提数据湖这个概念了,Delta Lake 是数据湖的一种。原创 2024-08-06 17:03:24 · 351 阅读 · 0 评论 -
《数据资产管理核心技术与应用》读书笔记-第一章:认识数据资产
元数据管理:在前面已经提到,元数据是描述其他数据的数据,是数据资产管理的核心,如果没有元数据管理,用户在使用数据时,就不知道数据是什么、包含了什么信息,自己需要的数据在哪里等,只有做好了元数据的管理,才能让数据更容易被检索,才能让数据的使用者快速的找到自己需要的数据。主数据的管理可以进一步提高数据的价值,提升数据对业务的响应速度。加强数据治理:通常来说,数据治理是做好数据资产管理的核心,通过不断的建立和完善数据治理的流程和规范,明确数据管理的职责和分工,对数据做好分类和标记,让数据更方便的被查找。原创 2024-08-05 13:22:02 · 666 阅读 · 0 评论