通常,元数据被定义为“关于数据的数据”,但是该定义并不确切,因而会导致歧义和混乱。实际上,元数据是一种信息和文献,它使得数据在经历了时间的推移后,对于用户来说,依然具有可理解性和共享性。它使得在元数据可获得的情况上,数据依然是有用的、可共享以及可理解的。
所有产生数据的组织都有义务提供(生成)必要的元数据,使得数据对于它的内部和外部用户都是可理解的。仅仅使用户可以获得数据,而缺乏理解和解释数据必要的信息显然是不够的。
每一个提供数据的组织还有一个义务就是对元数据的成分及构成,给出确切的定义。其原因包括三个方面:
a) 在一定的相关环境中,必须对数据和元数据给出明确的界定;
b) 元数据的整个范围必须被确定,即:充分、全面地描述数据所必需的所有元数据;
c) 由于每一个组织对元数据的需求和应用都相差甚远,因而无法对元数据给出一个普遍可以接受的定义。
因 为元数据也是数据,因此也可以像对数据库中其它类型的数据一样,在其储存库中,对元数据进行存储和检索。有序地存储和应用元数据,就可能使数据得到迅速、 有效的使用。通过联机数据传播、发送,数据及其元数据就可以同时获得。这样,数据用户就可以通过元数据来了解其需要用的数据的信息。
由于各种组织提供了不同类型的数据,因此,对元数据也有不同的需要和要求。但是,元数据宽泛的分类模式使之在不同组织间具有更多的共性。一个普遍确立的分类模式是:
a) 系统──计算机程序设计及数据库管理所必需的物理及逻辑特征,包括文件的定位、存储介质、记录格式、数据库模式、数据字典等信息;
b)应用──数据理解和应用所必需的信息,以及术语定义、搜集程序和工具、数据采集处理等信息;
c) 管理──成本、时间表、预算及与数据搜集项目、分析管理的相关信息。
综上所述,元数据是数据,并且就形式而言,可以依据数据模型和元模型进行组织。
对元数据的全面理解是所有数据用户建立此类模型的首要步骤。这些模型将成为建立元数据库的基础。同时这些模型也成为一些元数据分类的依据,因而,它们也成了分类方案的部分。