随着信息技术不断发展,各领域数据资源不断扩大,数据量呈几何增长,数据呈现多样性。不同平台之间元数据资源分散、资源反复存储,使得数据共享难的问题日益严重。元数据是实现科学数据共享的4种方式之一[1],因此集中配置管理公共元数据为解决这一问题提供了有效途径。元数据(Metadata)是“关于数据的数据”或“关于信息的信息”[2]。如年龄、身高、性格等就是描述人的元数据,可根据其推测人的样子。元数据可以记录数据的来龙去脉,可以把整个业务的工作流、信息流有效地管理起来,提高平台的可扩展性[3]。而公共元数据是指在领域中可通用的并具有重要参照意义的元数据,其需要满足一定的行业标准,标准中除要详细列出实体与元素集以外,还要说明元数据标准适用范围、参考标准、术语与定义、元数据分级、元数据性质、标识、格式和类型以及元数据扩展原则等[4]。元数据在科学数据领域中的研究与应用取得了较大进展,科学元数据标准的逐渐丰富和发展为元数据在科学数据不同领域的应用提供较为充分的工具和标准[5]。
目前,元数据存储分散使各平台中元数据难以共享,元数据反复存储浪费了存储空间。为解决此问题,本文提出将公共元数据集中管理,通过Web Service技术提供对外的公共元数据配置服务与共享服务,并利用内存数据库来提高服务速度。实际上,平台不仅保证了元数据的统一管理和高速共享,也简化各平台数据交换的流程,使平台间只需开发简单的接口调用和数据解析功能即可完成数据交互。
1 元数据配置管理研究现状
SUFI S等[6]认为元数据描述框架相比元数据内容标准,其承担的指导性和框架性作用更强,不局限于特定领域的术语平台限制,强调了数据描述框架在领域中的重要性,对元数据配置管理在领域中的指导性与框架性给予肯定。同时,Jian Qin等[7]指出,庞大的、复杂的标准和广泛多样的命名实践是构建元数据基础设施的主要障碍,而可移植是元数据方案“基础结构”的必要条件或先决条件,因此在元数据配置管理上统一元数据标准是构建平台的基础。
元数据的应用不仅能提高平台的灵活性与适应性,强化其稳定性,也使平台更易维护[8],同时利用元数据的整合,可提高平台灵活性与适应性,提高数据质量控制力度[9]。在元数据的配置管理上,王国复等[10]对元数据在科学数据共享平台的作用、元数据的分类、元数据的管理、元数据平台和元数据的应用模型进行了阐述。随后,张英俊[11]提出利用元数据的标准化来统一管理分布式的数据资源,通过网络实现数据共享与服务,使得用户能够快速准确地获取所需科学数据。进一步地,周宝平[12]提出元数据汇交、数据发布、元数据检索以及多种方式的数据共享等功能。
总的来说,国内外学者都已十分重视元数据的应用。目前,在统一元数据标准与跨平台数据共享上的研究比较充分,但在元数据跨平台配置管理与高效服务上的研究仍然不足。本文利用Web Service与Redis技术,设计了一种可跨平台配置管理公共元数据并提供高效共享服务的平台,有助于组织和管理海量数据资源,提高数据利用率。
2 元数据配置管理特点