什么是元数据 (MetaData)

IT其他技术 同时被 2 个专栏收录
14 篇文章 0 订阅
43 篇文章 0 订阅

什么是元数据?

       元数据(Meta Date),关于数据的数据或者叫做用来描述数据的数据或者叫做信息的信息。
       这些定义都很是抽象,我们可以把元数据简单的理解成,最小的数据单位。元数据可以为数据说明其元素或属性(名称、大小、数据类型、等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。

       举几个简单的例子:
       使用过数码相机的同学都应该知道,每张数码照片都会存在一个EXIF信息。它就是一种用来描述数码图片的元数据。根据
EXIF标准,这些元数据包括:Image Description(图像描述、来源. 指生成图像的工具 )、Artist(作者)、Make( 生产者)、Model (型号)、….、等等。
       生活中我们填写的《个人信息登记表》,包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等这些就是锁定kent.zhu这个人的元数据。

       通常情况下元数据可以分为以下三类:固有性元数据、管理性元数据、描述性元数据
        固有性元数据;与事物构成有关的元数据。
        管理性元数据;与事物处理方式有关的元数据。
        描述性元数据;与事物本质有关的元数据。
        当然,并不是说所数据总能清晰的划分在以上3类中。比如:一张由kent拍摄的大小为20K的JPG格式的印着一只小狗的圣诞卡照片。
      它的固有性元数据包括:20K、JPG;管理性元数据:kent拍摄、圣诞卡;描述性元数据:狗、小狗、圣诞、照片、圣诞节、…
      但是,圣诞卡则可以放在以上任何一个分类中。与事物构成有关(说明这个东东是什么)、与事物处理方式有关(说明这个东东的用途是什么)、与事物本质有关(可以直接用来描述这个东东)。

元数据之于信息架构的意义

      元数据是一种很有效的方法,用以确保网站上各种形式的内容确实都能被查找到。比如我们常常为搜索很久之前看到的一张美女图片犯愁,而如果一个图片网站如果信息架构足够好,我们就能凭借我们回忆到的元数据(关于武藤兰的?2000年拍摄的?)清晰的找到。
      元数据之于信息架构就像是房子的砖瓦,它可以根据需要摆放成不同的信息检索系统。元数据是所有组织系统的基础,从搜索到电子商务网站上的导航系统都强烈的依赖于元数据。
       前面提到,元数据实际上是为产品的可查找性(Findability)服务的。而用户在查找信息的时候不会按照机器思维去找(不会输入该照片的ID),而是直接输入关于信息的描述性信息如:“小狗 圣诞卡”。也就意味着在创建关于描述性元数据的时候要尽量的提取出任官关于这个对象所讲述的故事,这些才是人们能记住的和习惯搜索的细节。

        我们会发现,机械生成的元数据常常是不靠谱的,如在UCH系统下发布日志的时候系统会自动根据标题进行机械分析生成的一些元数据。
        而充分利用手工元数据(handcrafted metadate)是提高可查找性的一个好方法。最常见的例子就是我们见到的Tag。Tag就是一种用户自创的元数据,其特点是无层次结构、自定义。比如
这张Flickr照片下的手工元数据就为在Flickr上查找提供了更多的方便。

 

--------------------

元数据的特点

 

①元数据是关于数据的结构化的数据,它不一定是数字形式的,可来自不同的资源

  ②元数据是与对象相关的数据,此数据使其潜在的用户不必先具备对这些对象的存在和特征的完整认识。

  ③元数据是对信息包裹(Information Package)的编码的描述。

  ④元数据包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索。

  ⑤元数据不仅对信息对象进行描述,还能够描述资源的使用环境、管理加工、保存和使用等方面的情况。

  ⑥在信息对象或系统的生命周期中自然增加元数据。

  ⑦元数据常规定义中的“数据”是表示事务性质的符号,是进行各种统计、计算、科学研究、技术设计所依据的数值,或是说数字化、公式化、代码化、图表化的信息。

元数据的类型

 

根据功能可将元数据划分为

管理型元数据、

描述型元数据、

保存型元数据、

技术型元数据、

使用型元数据。

根据结构和语境可将元数据划分为三组:

第一组为全文索引;

第二组为简单结构化的普通格式,如DC、RFCl807、Template等;

第三组为结构复杂的特殊领域内的格式,如FGDC、GILS、TEI、EAD等。

  根据元数据的应用范围,可分为

通用性元数据、

专业性元数据、

Web元数据、

多媒体元数据。

元数据的结构

 

①内容结构。包括描述性元素、技术性元素、管理性元素、复用性元素。

  ②句法结构。包括元素的分区分层分段组织结构、元素结构描述方法、DTD描述语言、元数据复用方式、与被描述对象的捆绑方式。

  ③语义结构。包括元素内容编码规则定义、元素定义、元素语义概念关系、元数据版本管理。

元数据的作用

元数据是网络信息资源描述的重要工具,可以用于网络信息资源管理的各个方面,包括信息资源的建立、发布、转换、使用、共享等。元数据在网络信息资源组织方面的作用可以概括为五个方面:描述、定位、搜寻、评估和选择。

  (1)描述作用:根据元数据的定义,它最基本的功能就在于对信息对象的内容和位置进行描述,从而为信息对象的存取与利用奠定必要的基础。

  (2)定位作用:由于网络信息资源没有具体的实体存在,因此,明确它的定位至关重要。元数据包含有关网络信息资源位置方面的信息,因而由此便可确定资源的位置之所在,促进了网络环境中信息对象的发现和检索。此外,在信息对象的元数据确定以后,信息对象在数据库或其他集合体中的位置也就确定了,这是定位的另一层含义。

  (3)搜寻作用:元数据提供搜寻的基础,在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋予语意,并建立关系,使检索结果更加准确,从而有利于用户识别资源的价值,发现其真正需要的资源。

  (4)评估作用:元数据提供有关信息对象的名称、内容、年代、格式、制作者等基本属性,使用户在无需浏览信息对象本身的情况下,就能够对信息对象具备基本了解和认识,参照有关标准即可对其价值进行必要的评估,作为存取利用的参考。

  (5)选择作用:根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户便能够做出对信息对象取舍的决定,选择适合用户使用的资源。

元数据的各种解决方案

1.网络资源:Dublin Core、IAFA Template、CDF、Web CoIlections。

  2.文献资料:MARC(with 856 Field),Dublin Core。

  3.人文科学:TEI Header(Text encoding initiative Header)。

  4.社会科学数据集:ICPSR SGML Codebook。

  5.博物馆与艺术作品:CIMI(Computer Interchange of Museum Information)、CDWA(Categories for the Description of Works of Art)、RLG REACH Element Set、VRA Core。

  6.政府信息:GILS(Government Information Locator Service)。

  7.地理空间信息:FGDC/CSDGM(Federal Geographic Data Committee/Content Standard for Digital Geospatial Metadata)。

  8.数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core NISO/CLIR/RLG Technical Metadata for Images。

  9.档案库与资源集合:EAD。

  10.技术报告:RFC 1807、ibTeX、EELS、EEVL。

  11.连续图像:MPEG-7。

------------------------

科技名词定义

中文名称:
元数据
metadata
用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。

 

 

 

 

元数据最本质、最抽象的定义为:data about data (关于数据的数据)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。

定义

元数据被定义为:描述数据及其环境的数据

数据仓库

数据仓库领域中,
元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类 系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

软件构造

软件构造领域的定义在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。它在运行过程中起着以解释方式控制程序行为的作用。在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。

图书信息

在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。
一般认为,所谓元数据是关于数据的数据,或关于数据的结构化的数据。从已有的结论看,元数据的含义是逐渐发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。目前,元数据这一术语实际用于各种类型信息资源的描述记录。
此外,元数据在地理界,生命科学界等领域也有其相应的定义和应用。

元数据

元数据(Meta Data)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。
元数据是一种二进制信息,用以对存储在 公共语言运行库可移植可执行文件 (PE) 文件或存储在内存中的程序进行描述。将您的代码编译为 PE 文件时,便会将元数据插入到该文件的一部分中,而将代码转换为 Microsoft 中间语言 (MSIL) 并将其插入到该文件的另一部分中。在模块或程序集中定义和引用的每个类型和成员都将在元数据中进行说明。当执行代码时, 运行库将元数据加载到内存中,并引用它来发现有关代码的类、成员、继承等信息。
元数据以非特定语言的方式描述在代码中定义的每一类型和成员。元 数据存储以下信息:
程序集的说明。
标识(名称、版本、区域性、公钥)。
导出的类型。
该程序集所依赖的其他程序集。
运行所需的安全权限。
类型的说明。
名称、可见性、基类和实现的接口。
成员(方法、字段、属性、事件、嵌套的类型)。
属性。
修饰类型和成员的其他说明性元素。

优点

对于一种更简单的编程模型来说,元数据是关键,该模型不再需要接口定义语言 (IDL) 文件、头文件或任何外部组件引用方法。元数据允许 .NET 语言自动以非特定语言的方式对其自身进行描述,而这是开发人员和用户都无法看见的。另外,通过使用属性,可以对元数据进行扩展。元数据具有以下主要优点:

自描述

公共语言运行库模块和程序集是自描述的。模块的元数据包含与另一个模块进行交互所需的全部信息。元数据自动提供 COM 中 IDL 的功能,允许将一个文件同时用于定义和实现。运行库模块和程序集甚至不需要向 操作系统注册。结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的 可靠性

设计

元数据提供所有必需的有关已编译代码的信息,以供您从用不同语言编写的 PE 文件中继承类。您可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。

属性

.NET Framework 允许您在编译文件中声明特定种类的元数据(称为属性)。在整个 .NET Framework 中到处都可以发现属性的存在,属性用于更精确地控制运行时您的程序如何工作。另外,您可以通过用户定义的自定义属性向 .NET Framework 文件发出您自己的自定义元数据。有关更多信息,请参见利用属性扩展元数据。

意义

说到元数据的意义,可以从其应用目的来谈的。虽然做数据仓库言必称元数据,必称技术、业务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛。

还是拿客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。元数据也是如此,你可以将所有数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的"自上而下"做法,必败无疑。

列举

 

基于应用,可以将元数据分成以下的若干种。
数据结构: 数据集的名称、关系、字段、约束等;
数据部署:数据集的物理位置;
数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;
质量度量:数据集上可以计算的度量;
度量逻辑关系:数据集度量之间的逻辑运算关系;
ETL过程:过程运行的顺序,并行、串行;
数据集 快照:一个时间点上,数据在所有数据集上的分布情况;
星型模式元数据:事实表、维度、属性、层次等;
报表语义层:报表 指标的规则、过滤条件物理名称和业务名称的对应;
数据访问日志:哪些数据何时被何人访问;
质量稽核日志:何时、何度量被稽核,其结果;
数据装载日志:哪些数据何时被何人装载;

 

 

标准框架

 

1、数字图书馆资源组织框架
2. 元数据开发应用框架
2.1 元数据的基本意义 Metadata(元数据)是“关于数据的数据”;
元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;
元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。
离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。
3. 元数据应用环境
3.1 Metadata的应用目的
(1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源, 数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。
(2)著录描述(Cataloging),用于对 数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。
(3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。
(4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。
3.2 Metadata在不同领域的应用 根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现
例如:
网络资源:Dublin Core、IAFA Template、CDF、Web Collections
文献资料:MARC(with 856 Field),Dublic Core
人文科学:TEI Header
社会科学数据集:ICPSR SGML Codebook
博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core
政府信息:GILS
地理空间信息:FGDC/CSDGM
数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images
档案库与资源集合:EAD
技术报告:RFC 1807
连续图像:MPEG-7
3.3 Metadata格式的应用程度
不同领域的Metadata处于不同的标准化阶段:
在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;
在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经成为政府信息描述标准,并在世界若干国家得到相当程度的应用,与此类似的还有地理空间信息处理的FGDC/CSDGM;
但在某些领域,由于技术的迅速发展变化,仍然存在多个方案竞争,典型的是数字图像的Metadata,现在提出的许多标准都处于实验和完善的阶段。
3.4 Metadata格式“标准化”程度问题
Metadata开发应用经验表明,很难有一个统一的Metadata格式来满足所有领域的数据描述需要;即使在同一个领域,也可能为了不同目的而需要不同的但可相互转换的Metadata格式。
同时,统一的集中计划式的Metadata格式标准也不适合Internet环境,不利于充分利用市场机制和各方面力量。
但在同一领域,应争取“标准化”,在不同领域,应妥善解决不同格式的互操作问题。
4. 元数据结构
4.1 总体结构定义方式 一个Metadata格式由多层次的结构予以定义:
(1)内容结构(Content Structure),对该Metadata的构成元素及其定义标准进行描述。
(2)句法结构(Syntax Structure),定义Metadata结构以及如何描述这种结构。
(3)语义结构(Semantic Structure),定义Metadata元素的具体描述方法。
4.2 内容结构
内容结构定义Metadata的构成元素,可包括: 描述性元素、技术性元素、管理性元素、结构性元素(例如与编码语言、Namespace、数据单元等的链接)。
这些数据元素很可能依据一定标准来选取,因此元数据内容结构中需要对此进行说明,例如MARC记录所依据的ISBD,EAD所参照的ISAD(G),ICPSR所依据的ICPSR Data Preparation Manual。
4.3 句法结构
句法结构定义格式结构及其描述方式,例如元素的分区分段组织、元素选取使用规则、元素描述方法(例如Dublin Core采用ISO/IEC 11179标准)、元素结构描述方法(例如MARC记录结构、SGML结构、XML结构)、结构语句描述语言(例如EBNF Notation)等。
有时,句法结构需要指出元数据是否与所描述的数据对象捆绑在一起、或作为单独数据存在但以一定形式与数据对象链接,还可能描述与定义标准、DTD结构和Namespace等的链接方式。
4.4 语义结构 语义结构定义元素的具体描述方法,例如 描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。
有些元 数据格式本身定义了语义结构,而另外一些则由具体采用单位规定语义结构,例如Dublin Core建议日期元素采用ISO 8601、资源类型采用Dublin Core Types、数据格式可采用MIME、识别号采用URL或DOI或ISBN;
又如OhioLink在使用VRA Core时要求主题元素使用A&AT、TGM和TGN,人名元素用ULAN。
5. 元数据编码语言与制作方式
5.1 元数据编码语言
元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。
在元数据发展初期人们常使用自定义的记录语言(例如MARC)或 数据库记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML和XML,其中以XML最有潜力。
5.2 元数据制作方式
(1)专门编制模块(例如对MARC、GILS、FGDC等)
(2) 数据处理时自动编制(例如对Dublin Core等)
(3)数据物理处理时自动编制(例如数字图像扫描时的某些元数据参数)
(4)共享元数据(例如OCLC/CORC、IMESH
6. 元数据互操作性
6.1 元数据互操作性问题
由于不同的领域(甚至同一领域)往往存在多个元数据格式,当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability):
多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。
6.2 元数据格式映射
利用特定转换程序对不同元数据元格式进行转换,称为 元数据映射(Metadata Mapping/Crosswalking)。
目前已有大量的转换程序存在,供若干流行元数据格式之间的转化,例如
Dublin Core与USMARC; Dublin Core与EAD
Dublin Core与GILS; GILS与MARC TEI
Header与MARC FGDC与MARC
也可利用一种中介格式对同一格式框架下的多种元数据格式进行转换,例如UNIverse项目利用GRS格式进行各种MARC格式和其它记录格式的转换。格式映射转换准确、转换效率较高。不过,这种方法在面对多种元数据格式并存的开放式环境中的应用效率明显受到限制。
6.3 标准描述框架
解决元数据互操作性的另一种思路是建立一个标准的 资源描述框架,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式. 实际上,XML和RDF从不同角度起着类似的作用。
XML通过其标准的DTD定义方式,允许所有能够解读XML语句的 系统辨识用XML_DTD定义的Metadata格式,从而解决对不同格式的释读问题。
RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型,其中Resources和Properties关系类似于E-R模型,而Statements则对该关系进行具体描述。
RDF通过这个抽象的 数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。
进一步地,RDF定义了标准Schema,规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其它资源间关系的方法。另外,RDF还规定了利用XML Namespace方法调用已有定义规范的机制,
6.4   数字对象方式
建立包含元数据及其转换机制的数字对象可能从另一个角度解决元数据互操作性问题。
Cornell/FEDORA项目提出由内核(Structural Kernel)和功能传播层(Disseminator Layer)组成的复合数字对象。
内核里,可以容纳以比特流形式存在的文献内容、描述该文献的元数据、以及对这个文献及元数据进行存取控制的有关数据。
功能传播层,主功能传播器(PrimitiveDisseminator)支持有关解构内核数据类型和对内核数据读取的服务功能,还可有内容类型传播器(Content-Type Disseminators),它们可内嵌元数据格式转换机制。
例如,在一个数字对象的内核中存有MARC格式的元数据,在功能传播层装载有请求Dublin Core格式及其转换服务的内容类型传播器。当数字对象使用者要求读取以Dublin Core表示的元数据时,相应的内容类型传播器将通过网络请求存储有Dublin Core及其转换服务程序的数字对象,然后将被请求数字对象中的MARC形式元数据转换为Dublin Core形式,在输出给用户。
7. 几点建议
跟踪元数据发展、积极参与制定 元数据标准、加快元数据应用、注意国际接轨。
加快研究有效利用元数据进行检索(包括异构系统透明检索)、相关性学习、个性化处理等的机制。
加快研究元数据与数字对象和数字化资源体系有机整合的途径与方法。
推进研究利用元数据进行基于知识的数据组织和 知识发现

管理

初期的元数据管理通常是在事后由相应的元数据管理软件,从已开发完成的应用系统中抽取用户所关注的各类元数据,再由人工补录一些注释和管理用的属性。这种模式称之为基本元数据管理,由于存在元数据获取的不及时,存在为了减少工作量有些属性空缺的风险,存在对应用体验支持力度的不足,实际应用并不普遍。在新一代应用系统(AS2.0)   [1] 中,业务功能通常都是由相应的构件,以人机交互的形式,通过在人工业务语境的对话过程中组装实现的。这个过程中,不仅完成了业务应用所需要的应用软件元素,同时也完成了应用软件元素相对应的元数据的采集。这种模式称之为主动元数据管理。以下是元数据管理的主要功能,后2部分属于主动元数据管理的内容。

基本管理

元模型管理。利用可视化的用户体验,实现包括元模型添加、删除、修改、发布等维护功能;并且能让用户直观地了解已有元模型的分类、统计、使用情况、变更追溯,以及每个元模型的生命周期管理等等。
元数据管理。元数据管理实现针对元数据的基本管理功能。如元数据的添加、删除、修改属性等维护功能;元数据之间关系的建立、删除和跟踪等关系维护功能;提供元数据发布流程管理,可以更好地管理和跟踪元数据的整个生命周期;元数据自身质量核查、元数据查询、元数据统计、元数据使用情况分析、元数据变更、元数据版本和生命周期管理等功能。
元数据分析。元数据分析功能主要实现针对元数据的基本分析功能。包括血缘分析(血统分析)、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。

捕获

为各类应用软件元素提供元数据支撑,在相应的工具软件以最佳用户体验的人机交互模式,按照严格的逻辑步骤,统一、顺序地定义数据项、定义表单、定义ETL和加工规则、定义物理表、定义多维模型、定义展现和结果数据集等等应用软件元素的同时,元数据捕获功能的元数据采集接口,及时地将相应的元数据收集进入元数据管理平台。替代了基本元数据管理需要在事后抽取元数据的作法,而在应用软件元素生成的同时,就加载并形成了与其相关的各种元数据。

服务

各类应用软件元素产生的元数据进入元数据平台后,元数据管理可通过元数据服务功能,为需要这些元数据的工具软件或构件提供元数据服务。如将前面所述的各种工具软件的定义结果,以相应的标准协议进行打包形成方案(应用脚本),提供给其它应用环境中的物理表建立工具、ETL工具、多维模型建立工具、结果展现工具等底层工具,从而实现应用的重用和共享。同时,元数据服务还可为业务应用功能提供辅助的元数据帮助信息,如业务功能中加工结果和指标的说明、提示,及其血缘分析等,让用户可明确、直观地了解数据的来源、加工过程及加工算法等信息。

概念

元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。 元数据的基本特点主要有:
a)元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;
b)元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。
元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。
由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。

 

http://read.pudn.com/downloads118/ebook/500264/j2ee%BF%AA%B7%A2%C8%AB%B3%CC%CA%B5%C2%BC/%D4%AA%CA%FD%BE%DD.pdf

  • 22
    点赞
  • 2
    评论
  • 77
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

本版的新内容 这一版中的新内容和特色将使学生和本书的其他读者受益,其中包括: ● 使用Microsoft Access 2010演示和强调数据库的创建和使用原则。本书把对Microsoft Access和其他Microsoft Office产品(如Excel)的所有引用都修订为最新发布的Microsoft Office 2010版本。 ● 本书的更新表现为使用Microsoft SQL Server 2008/2008 R2 Express版本。尽管书中大多数主题都向后兼容Microsoft SQL Server 2005 Express版本,但均专门使用SQL Server 2008和Office 2010。 ● 本书中的更新还表现为使用MySQL Workbench作为MySQL 5.1的唯一数据库开发工具。本书第4版使用的MySQL GUI工具被MySQL在2009年12月18日宣布停止使用。目前的MySQL Workbench 5.2.x集成了MySQL GUI工具的功能,这一版就使用它。 ● 使用Microsoft Windows 7操作系统作为本书的工作站操作系统。上一版使用的是Windows XP和Windows Vista操作系统,而这一版更新为最新的Microsoft工作站操作系统。 ● 添加了附录C“系统分析和设计入门”。这个新附录为没有学习过这方面课程的学生或读者介绍了系统分析和设计概念,论述了收集数据建模所需输入信息的基本方法(参见第4章),并在应用程序开发的过程中融入了数据库开发。此附录包含在本书配书光盘中。 ● 添加了附录D“Microsoft Visio 2010入门”。这个新附录介绍了如何使用Microsoft Visio 2010进行数据建模(参见第4章)和数据库设计(参见第5章)。此附录包含在本书配书光盘中。 ● 添加了附录E“Web服务器、PHP和Eclipse PDT入门”。这个新附录介绍了如何安装和使用Microsoft IIS Web服务器、PHP和用于Web数据库应用程序开发的Eclipse PDT IDE(参见第7章)。此附录包含在本书配书光盘中。 必要的基本概念 如果不学习基本概念,只靠现有的技术就不可能成功使用DBMS。凭借多年来为商业用户开发数据库的经验,我们认为下面的数据库概念非常重要: ● 关系模型的基本概念 ● 结构化查询语言(SQL) ● 数据建模 ● 数据库设计 ● 数据库管理 由于当前Internet、World Wide Web和分析工具的广泛使用,因此另外增加两个基本概念: ● Web数据库处理 ● 商业智能(BI)系统 像Colin这样的用户(或将来从事类似工作的学生)不需要像信息系统专家那样深入地了解这些主题。因此,本书只介绍最基本的概念,足以帮助Colin这样的用户创建和使用小型数据库了。本书的许多内容在David M.Kroenke和David J.Auer的Database Processing: Fundamentals, Designs, and Implementation1一书的基础上进行了重写和简化。不过在本书内容上我们也力求讨论准确,不会产生误导。即使学生已学习过更高级的数据库课程,也可从中获益。 独立于DBMS产品的概念 本书假设学生没有使用过任何特殊的DBMS产品,我们通过Microsoft Access、SQL Server Express版和MySQL来演示数据库概念,使学生可以将这些产品作为工具真正试验书中的内容,而这些概念都是以DBMS无关的方式出现。通过这种方式学习,学生可以掌握适用于任意数据库的基本原则,包括小型的Microsoft Access数据库到大型的Oracle或DB2数据库。而且这一方法也避免了一个常见的问题:在同时介绍概念和产品时,学生容易混淆概念与产品特性和功能。例如,在讲授参照完整性约束时,如果从概念的角度讲授会说明这时一个表中的列值必须总是由另一个表中的列值提供,并解释这一约束出现在关系定义的上下文中的方式,以及DBMS或应用程序如何强制执行这一约束。如果结合具体的DBMS讲授如Microsoft Access,学生就只知道:在某些情况下选取复选框,而在其他情况下不选取。这很容易导致学生在学习产品特性时,会淡忘数据库的基本概念。 这并不是说教学中不应使用DBMS。相反,学生们可以通过使用商业DBMS产品来更好掌握这些概念。本书的这一版包括Microsoft Access、SQL Server Express版和MySQL的足够多的基础信息,使您无需其他书籍或资料就可以在课堂上使用这些产品。本书还深入介绍了Microsoft Access,因为它是一个非常流行的个人数据库产品,并且包括在Microsoft Office Professional应用程序套件中。但如果希望深入理解特定的DBMS或使用本书没有介绍的DBMS产品,则需要额外的书籍或资料。Prentice Hall提供了Microsoft Access 2010和其他DBMS产品的大量图书,可以结合本书一起学习。 Access工作台 本书的这一版继续使用首次在第3版引入的特征—— “Access工作台”。由于Microsoft Access广泛用于初级数据库课程,因此介绍使用Microsoft Access的特定信息比较重要。每一章都带有一个“Access工作台”部分,其中使用Microsoft Access来演示本章的概念和技术。“Access工作台”部分在第1章中介绍了如何创建数据库和单个表,逐渐转移到不同主题,到最后第7章介绍相对于Microsoft Access数据库的Web数据库处理,和第8章介绍使用Microsoft Access和Microsoft Excel生成PivotTable OLAP报表。本书并非试图全面论述Microsoft Access,而是介绍所有必要的基本Access主题,使学生可以有效地构建并使用Microsoft Access数据库。 重要术语、复习题、练习题和项目 学生能否运用所学的知识非常重要,因此每章都提供了重要术语表(本版新增)、复习题、练习题(包括针对“Access工作台”的练习题)和三个贯穿本书始终的项目。如果学生阅读并理解了每一章的内容,就应能掌握每个重要术语的含义、能完成复习题。练习题要求学生将每章所讲的概念应用到具体的小问题或任务中。 第一个项目Garden Glory是有关一个向个人或企业提供园艺服务的合伙公司的数据库开发和使用。第二个项目James River珠宝行分析了为一家零售店实施常客计划的数据库需求。第三个项目Queen Anne Curiosity商店关注的是零售业的销售和库存需求。本书的所有章节都包括这三个项目。在每个实例中,都要求学生将各章的知识运用到项目中。教师会在教师手册中找到使用这些项目的更多信息,还可以从本书网站(www.pearsonhighered.com/kroenke)中受密码保护的教师部分获得数据库和数据。 本书使用的软件 与之前我们使用与DBMS无关的方式进行讨论一样,本书将尽可能选择独立于操作系统的软件,目前网络上有非常多的杰出软件可以使用,许多大的DBMS厂商都提供了其主要产品的免费版本(如Microsoft 的SQL Server Express版,Oracle公司的Oracle数据库和MySQL),Web编辑器和集成开发环境(IDE)也很常用,例如Eclipse、NetBeans和Visual Studio Express版。PHP被认为是第四个最常用的编程语言,可以下载用于许多操作系统和Web服务器。 所以尽管本书的示例是用Microsoft操作系统、SQL Server 2008/2008 R2 Express版、Microsoft Access 2010、Microsoft Excel 2010和IIS Web服务器创建的,但它们大都很容易用Linux、MySQL Server Community版、OpenOffice.org Base、OpenOffice.org Calc和Apache Web服务器创建。本书使用的一些软件产品,如PHP和Eclipse都可用于多种操作系统。 在过去30多年中,我们已经发现数据库和数据库应用程序的开发是一项愉快且有回报的活动。我们相信:在将来数据库的数量、大小和重要性会不断增加,而该领域也越来越重要。希望本书介绍的概念、知识和技术帮助学生成功地参与到现在和多年后的数据库项目中。 对第4版的改进 本版最重要的改进是在全文和“Access工作台”每个部分都使用了Access 2010。由于推出了Microsoft Office 2010,本书做了更新以反映该产品中的变化。当然,我们还更新了本书所有其他产品的信息,尤其是本版使用Windows 7操作系统来演示本书中的应用程序,MySQL工作台现在是MySQL数据库开发的GUI。 我们继续保持并改进了本书前几版引入的几个特性: ● 在每章中使用“Access工作台”介绍Microsoft Access的基础知识。 ● 介绍SQL Server 2008 R2 Express版(附录A)和Oracle MySQL Community Server 5.1(附录B)的用法。附录A和附录B包含在本书配书光盘中。 ● 使用示例数据集充分开发了在本书各个部分中使用的三个示例数据库:Wedgewood Pacific Corporation、Heather Sweeney Designs和Wallingford Motors。 ● 在Web数据库处理主题中使用PHP脚本语言和Eclipse IDE。 ● 扩充介绍了XML。 ● 扩充介绍了商业智能(BI)系统。 ● 介绍了多维数据库模型 本版继续使用之前版本增加的较为有效的规范化讨论,使用一个四步过程来演示规范化关系的规定步骤。这种方法不仅简化了规范化任务,而且使规范化原理更易于理解,因此当前版本仍沿用了这一方法。教师如需更多了解范式,可参考第5章中介绍的大多数范式的简短定义。 本书概要 本书包括8章和5个附录(附录内容包含在本书配书光盘中)。第1章解释了使用数据库的原因、数据库各个组件和开发方法。学生将学习数据库及其应用程序的用途、数据库相对于电子表格列表的差别和优势。第2章介绍了关系模型,定义了基本的关系术语,还介绍了规范化原则的基本概念,并描述了规范化过程。 第3章讲述了基本的SQL语句,介绍了定义数据的基本SQL语句,如SQL SELECT语句和数据修改语句。本书并不介绍高级的SQL语句,只讲述基本语句。 接下来的两章讨论了数据库设计。第4章使用实体-关系(E-R)模型解决数据建模问题,其中包括对数据建模的需求、基本的E-R术语和概念,并提供了一个简短的E-R建模示例应用程序(Heather Sweeney Designs)。第5章讲述了数据库设计,解释了规范化的基本概念。第4章示例中的数据模型在第5章中则被转换为关系设计。 最后三章讨论了数据库管理,以及数据库在应用程序中的使用。第6章概述了数据库管理,构建了一个作为功能数据库的示例数据库,并用作讨论数据库管理需求的示例。本章探讨了并发控制、安全性、备份及恢复技术。数据库管理主题很重要,因为它适用于所有数据库,即使是个人或单用户数据库也是如此。事实上,在某些方面这些主题对于小型数据库更重要,因为它们没有专业的数据库管理员来确保关键任务的执行。第6章也讨论了分布式数据库和面向对象的数据库。 第7章介绍了使用基于Web的数据库处理,包括开放数据库连接(ODBC)和PHP脚本语言的使用。本章也讨论了可扩展标记语言(XML)的出现和基本概念。 第8章介绍了商业智能(BI)系统和支持它们的数据仓库体系结构,还讨论了多维数据库,解释了如何为Heather Sweeney Designs建立多维数据库,并使用它生成PivotTable OLAP报表。 附录A提供了SQL Server 2008 R2 Express版的简介,附录B则提供了MySQL 5.1的类似介绍。在每章的“Access工作台”中都包括了对Microsoft Access的介绍。附录C介绍了系统分析与设计,可以为第4章(数据建模)和第5章(数据库设计)提供参考。附录D简要介绍了Microsoft Visio 2010,可用作数据建模(第4章)和数据库设计(第5章)的工具。另一个有效的数据库设计工具是MySQL工作台,其用法参见附录B。最后,附录E给出了启动和运转Microsoft IIS Web服务器、PHP和Eclipse PHP开发工具(PDT)的详细指导,这些将有助于我们更好地学习第7章。 在快速变化的环境下保持最新 为使数据库的概念在各版中保持最新,我们将根据需要在本书的网站(www.pearsonhighered .com/kroenke)上贴出更新表。例如,发布Office 2007后,我们就贴上了Access 2007的内容,在课堂上使用Access 2007的教师就会有“Access工作台”部分和PowerPoint幻灯片的所需版本。教师资源和学生资料也可以从网站上获得,所以应时常浏览本书的网站。
©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值