Using Semantic Web Technologies for Representing E-science Provenance(论文阅读)

用语义网技术表示电子科学的起源

论文背景

生命科学研究人员越来越依赖网络作为数据的主要来源,这迫使他们在使用网络时要像在实验室进行实验一样严格ThemyGrid项目正在开发工作流的使用,以明确捕获基于网络的过程,以及描述结果是如何以及为什么产生的出处。我的网格中的经验表明,这种起源元数据是由影响结果产生的复杂的异构资源网络形成的。因此,我们探索了**语义网技术(如RDF)**和本体的使用,以支持其表示,并使用现有的倡议(如耶拿和LSID)来生成和存储这样的材料。复杂的RDF图的有效表示是具有挑战性的。Haystack已经被用来提供可以进一步注释的起源元数据的多个视图。因此,这项工作形成了一个案例研究,展示了现有的语义网工具如何有效地支持生命科学研究的新需求。

简介

生命科学研究人员很早就大量使用网络技术来访问大型数据集和应用程序[1]。人类基因组计划[2]等倡议意味着,与其在实验室对人类基因进行测序,不如从网络上下载序列。除了数据,工具也可以在网络上获得,数据可以在工具之间移动以执行分析[1]。对这些资源作为主要数据来源的更大依赖意味着特别的网络浏览正在让位于一种更系统的方法,这种方法体现在英国研究界的术语电子科学中[3]。与实验室类似,基于网络的分析或整合数据的程序被称为电子实验。
在这里插入图片描述
如果没有记录
实验的材料、方法、目标、假设和结论
,计算机实验的结果就没有价值。传统上,在实验室中**,科学家将这些信息记录在一本实验室手册中,并使用这些记录来说明在分析、验证和公布科学发现的过程中,结果是如何以及为什么产生的。这些记录是一项实验的出处。**电子科学的电子实验也需要出处数据,以帮助电子科学家验证结果、得出结论和检验假设。在电子科学出处日志中,用于电子实验的每一条数据;用于分析这些数据的工具;产生的结果;并且需要记录这些数据和工具的关联和派生。电子科学实验的部分出处记录如图1所示。这些来源数据的记录、索引、组织和使用是电子科学的一个关键方面。

myGrid

myGrid是英国的一个电子科学试点项目,旨在提供中间件服务,不仅将电子实验作为网格环境中的工作流自动执行,还管理和使用实验结果[4]。目前,该项目正在使用几种分子生物学方案进行开发。本文利用曼彻斯特大学生物学家和生物信息学家的合作,研究威廉姆斯-贝伦综合征的遗传基础[5]。威廉姆斯-伯伦综合征是一种与人类7号染色体小区域缺失相关的先天性疾病。人们对表征该区域的基因很感兴趣,以便深入了解数量明显较少的基因如何导致一系列复杂的认知和物理表型。

信息异构性

如果要共享起源信息,我们需要克服它们的异构性,并就每个数据项和服务的内容代表什么以及我们提供的资源之间的关系达成共识(或语义)。语义网本体语言如DAML+OIL及其后继的OWL已经被用来捕获这些语义信息[9]。
在这里插入图片描述
标识符,这项工作作为一个案例研究,描述了用语义网支持生命科学家的可能性。在这篇论文中,第2节描述了科学家对出处的要求和所记录信息的含义。第3节描述了为什么语义网技术非常适合支持我们的需求。第4节描述了出处记录和可视化的实现。

出处要求和设计

出处在电子科学中有非常广泛的范围。最简单地说,它描述了事物从哪里产生。但是许多不同的政党可能有不同的对实验感兴趣,这些兴趣会随着时间的推移而变化。

不同的人有不同的需求

这些不同的需求导致了包含许多不同类型的资源和它们之间的关系的起源金字塔的设计,如图3所示。已经设计了四种类型的出处日志,包括过程、数据、组织和知识出处,在这个出处网站上提供了四种不同的视图,并支持针对这些不同用户需求的个性化出处数据网站
在这里插入图片描述

语义网技术

在这一节中,我们介绍了本项目中使用的语义网技术,包括RDF、LSIDs和本体,以便表示出处日志并构建这些资源的语义网。

RDF

选择RDF作为起源的表示模型是因为:
(1)它提供了一个比例如XML的树模型更灵活的基于图的模型来关联资源;
㈡它为资源提供了一个明确的识别系统(通用资源标识符(URIs)),允许从几个来源合并关于一个资源的元数据;
(iii)它提供了一个定义明确但不过度约束的与本体的关联。这能引导关于一个资源,但不局限于这个模式的描述。同样从实用的角度来看,有几个成熟的开源RDF库是可用的,并且可以直接使用。

LSID(生命科学标识符)

以下网址可以进行下载lsid
https://sourceforge.net/projects/lsid/files/latest/download
包括RDF在内的网络标准使用一系列标识符,统称为通用资源标识符(URIs)。这个家族的成员包括唯一资源名(URn)和通用资源定位符(URLs)。后者用于指定资源的标识和位置。我们正在实现一个分布式系统,所以我们必须有一个机制来从它的标识符中检索远程资源的数据和元数据。因此,网址是一个明显的候选。然而,themyGrid项目选择使用一种称为LSIDs的URN类型。LSIDs承诺在生命科学中唯一和一致地识别数据资源,并为数据和任何相关元数据的检索提供解决方案[7]。它们最初是在i3c 3的框架下开发的,现在正在接受OMG4的正式标准化。每个LSID由五个部分组成:网络标识符(NID);发布机构的根域名系统(DNS)名称;发布机构选择的命名空间;命名空间中唯一的对象id;最后是用于存储版本信息的可选版本id[7]。LSID的结构如下所示:
在这里插入图片描述
LSID的解析过程保证了LSID标识的数据对象的持久性和唯一性与数据源的位置无关。解决大规模集成电路时,需要两个软件组件,一个LSID服务器和一个LSID客户端。LSID服务器由发布信息学数据并为数据分配大规模集成电路的权威机构操作。LSID客户端通过LSID协议通过网络与服务器通信,以检索由LSID识别的数据或元数据。给定一个LSID,授权机构首先通过查询互联网域名系统来识别该授权机构的LSID解析服务的位置。一旦该机构被识别,它的IP地址或主机名和TCP/IP端口号被返回,并被用于构造一个如下形式的HTTP/SOAP端点URL
在这里插入图片描述
然后,当查询端点时,LSID被用作参数。返回网络服务描述语言(WSDL) [11]描述,提供检索由LSID标识的数据或元数据对象的方法。本WSDL文档详细介绍了LSID支持的所有可用功能由管理局执行。使用这种机制可以指示各种各样的协议,包括
HTTP、FTP、文件系统和SOAP方法
。尽管在解决过程中保证了由LSID识别的数据的持久性,但是与LSID相关联的元数据会随着时间而改变。LSIDs tomyGrid的优势是:
1、数据和元数据的清晰分离:没有约定来定义当客户端解析一个网址时会收到什么。获得的文档可以表示元数据、数据,或者更可能是两者的组合。网络上最被接受的模式是将一些RDF元数据内嵌到文档中。然而,这并不适用于myGrid:
a)我们处理的是原始数据,而不是已发布的文档。工作流系统需要在服务之间传递原始数据,不需要任何元数据注释;
b)数据和元数据可以位于不同的位置;
c)元数据可能附加到我们无法控制的资源(第三方元数据);
2、维护不可变和永久数据的明确社会承诺。如果我们能够允许由网址解析的数据发生变化,那么出处就变得毫无价值。然而,附加和更新的元数据越多,出处就越有价值
3、应用兼容标准的潜力:我们可以实现一个如何从一个网址检索元数据和数据的约定,但这将是我的网格特有的。大规模集成电路设计为我们提供了一个经过标准化程序的现成协议。通过使用这个标准,我们确保了这个基于RDF的出处网可以与其他信息语义网合并,比如蛋白质数据库中的蛋白质结构元数据。LSID试验机构目前有蛋白质数据库、基因数据库(基因组数据库)和公共医学数据库(生命科学文献数据库)。同样,从实用的角度来看,**IBM的开发人员通过提供Java、C++和Perl的客户端和服务器实现,**以及一个名为LSID启动板的演示用户客户端,形成了互联网探索的插件,从而支持了LSID标准。

本体论

如果要在一个大型社区中集成和共享信息,**就必须就该信息的领域语义达成一致。**这是真的,即使对于单个用户也是如此。我们必须能够在两个层次上指定语义:首先
第一,**我们需要一个高级模式来描述可以链接在一起的资源类,比如数据项和服务调用,以及它们之间可以保持的关系,比如输出;
第二,需要一个大的领域词汇来进一步分类资源类型,如数据类型(如BLAST报告)、服务类型(如序列比对服务)和感兴趣的主题(威廉姆斯-贝伦综合征)。**这种对领域的共同理解通过提高查全率和查准率极大地方便了查询。
在这里插入图片描述

网格中起源生成和可视化的体系结构

实现

选择了RDF来描述我们的资源,LSIDs来识别它们,本体来提供这些数据的公共语义视图,必须在执行计算机实验的环境中提供出处支持。图4显示了在myGrid中提供组件的起源的体系结构,以及起源数据是如何绘制在一起的。首先,用户使用Taverna工作流工作台6启动工作流。工作台保存用户身份等组织信息,这些信息与输入数据和工作流规范一起传递给工作流实施者。当工作流运行时,激活器存储数据(使用mySQL RDBMS)和元数据(在Jena RDF存储库7中),对应于我们的四个起源视图。每个资源(包括个人、组织、数据和服务)都被分配一个LSID,并通过使用开源框架8实现的LSID权威机构提供。客户端应用程序可以使用LSID协议可视化元数据和数据

Freefluo

是一个用于网络服务的工作流编排工具,最初由信息技术创新开发,但现在所有人都可以从Freefluo Sourceforge网站上获得。它可以处理基于WSDL的网络服务调用。它支持两种可扩展标记语言工作流语言,一种基于国际商用机器公司的WSFL,另一种名为XScufl,正在开发中,是Taverna Sourceforge项目的一部分。
Freefluo非常灵活,其核心是一个可重用的编排框架,不依赖于任何工作流语言或执行架构。Freefluo包括扩展库,支持在WSFL子集内编写的工作流的执行。支持通过标准UDDI发现和记录出处。
Freefluo是我的网格工具包中的一个组件。myGrid工具包由许多有用的软件组件组成。这些组件旨在展示现有网格基础设施的更高级功能,支持科学家利用复杂的分布式资源。这些更高级别的功能通过服务查找和发现、出处和数据存储来扩展。
更多信息请访问我的网格。
IT Innovation正在与myGrid的其他成员(尤其是EBI)合作,以定义新的简化工作流语言和附带工具。这项工作已经创建了一种称为Scufl(简单概念统一流语言)的工作流语言和一种称为XScufl的XML表示。此外,还开发了一个参考工作流创作工作台。开发是作为一个名为塔维纳的Sourceforge项目进行的。工作台支持scufl工作流的编辑、转换为可浏览的可视化表示,以及使用Freefluo的前身myGrid工作流实施引擎执行这些工作流。下图显示了正在运行工作流的工作台。Freefluo很快就要全面融入Taverna了。
在这里插入图片描述

用本体支持出处记录

第3节描述了从承诺正式指定的公共语义中获得的好处。因此,在产生任何出处之前我的网格使用了DAML+OIL语言,因为大部分工作都是在后来开发和发布OWL规范之前进行的。我们目前正在迁移到OWL。
模式本体在大小上相对较小(< 30个类,< 20个属性),并且(在独立于域的级别上)为我们记录的起源的四个视图指定每个资源类和它们之间可以保持的属性。
为了描述计算机实验的执行过程,我们对一些类进行了建模,比如描述web服务过程的服务调用、描述通常是多方面过程的特定子事件的调用事件以及标识进出web服务过程的数据流的数据项。由创建的属性将数据项与创建它们的服务调用相关联。
2.数据派生视图(在独立于域的级别上)目前很简单,它使用从派生的单个属性将web服务输出与其关联的输入链接起来。任何更具体的关系都是领域相关的,并且形成了源网站的知识视图
3.数据之间的域相关关系特定于单个服务,甚至可能特定于特定工作流的上下文。例如,BLAST服务的输出是与输入相似的序列。因此,工作流的作者负责准确确定使用了哪些属性。他/她选择适当的属性来形成语句模板。
4.实验性的组织观将特定的工作流与运行它的人、项目和组织联系起来,并对科学动机进行简单描述。
更大的特定领域本体9(在生物医学信息学术语中仍然很小)包含了600个类和50个属性。由于许多概念有多个父概念(这是一个很难用手维护的特性),在DAML+OIL中,每个概念都被手动分配给一个父概念以及一个正式的概念定义。描述逻辑推理机然后使用形式概念定义来检查一致性并推断附加的包含关系。对此的详细描述超出了本文的范围。更多信息可参见[12]。为了有效,本体的使用必须遍及系统:
1、该模式充当了Taverna/FreeFluo工作流执行器如何编码起源信息的规范激活器自动生成与其所拥有的信息相关的RDF语句,这些信息包括调用了什么服务、使用了什么参数、服务处理请求花费了多长时间、发生了什么子事件以及结果结果数据或失败。所有的属性都来源于本体,所有的资源都是用本体概念类型化的。LSIDs是根据工作流运行、每次服务调用和子事件生成的。然后,相关的RDF语句作为这些资源的元数据发布。enactor还将这个基于流程的视图与数据派生视图相关联。它直接链接数据项,首先为每个数据项分配一个唯一的LSID,然后生成将数据项链接在一起的RDF语句。如上所述,这些语句构成了数据项的元数据。Taverna工作流工作台保存关于实验身份、人员、项目和运行该工作流的组织的组织信息。每个都由LSID标识,因此将它们链接到特定工作流运行的RDF语句可以作为这些资源的附加元数据发布。给定图2中的示例工作流,用户可以通过它的起源日志进行语义追踪:工作流的蛋白质序列输出从哪里导出,哪个服务创建了这个蛋白质输出,谁是这个蛋白质序列的所有者,等等。当整合来自不同运行的起源日志时,用户能够将生成蛋白质序列的所有日志分组为输出,例如,由特定用户创建的或包含与该蛋白质输出相似的序列的输出。图1显示了由图2中的工作流生成的起源图。数据图是工作流图的反转,但进一步扩展为与流程起源相协调。
2、工作流实施者使用特定于领域的本体在领域级别对工作流产生或使用的数据项进行分类。
3.领域特定的本体提供了科学家可以用来关联服务的输入和输出的属性,以提供上述知识视图。
4.Haystack使用模式和领域特定的本体来帮助可视化,如下一节所述。

基于源的RDF可视化

在生成了这些起源数据之后,我们需要让科学家能够执行第2节中描述的基于起源的任务。分析和验证通常基于浏览。然而,根据任务的目标,这种浏览需要沿着多个轴从多个角度进行。这意味着我们需要一个通用的、灵活的基础,以便科学家与出处数据进行交互。通过使用LSID协议检索数据和元数据,我们已经能够清晰地将可视化组件与那些生成和存储出处信息的组件分开,以至于我们能够重用现有的外部开发的软件以及预先存在的LSID客户端功能。我们使用的第一个这样的客户端是LSID启动板,它在浏览器中呈现与LSID相关联的RDF元数据。在Internet Explorer中输入LSID会导致LSID客户端找到相关的LSID机构,并检索该资源的相关元数据。常见的情况是检索web文档时,可以注册客户端应用程序来处理特定的MIME类型,以便在检索数据本身时,以适当的方式显示数据。
虽然这是LSID基础设施的一个有用的演示,但是这种风格的RDF元数据可视化是有意幼稚的。用户只能看到图中一个关系宽度的受限区域。有一些更丰富的工具可以向用户提供语义网技术。麻省理工学院的Haystack就是这样一个语义网络浏览器,它使开发人员能够提供对RDF元数据的定制视图[8]。为了快速获得资源如何相互关联的高级视图,用户可以像许多其他语义网可视化工具一样,在Haystack中将源RDF视为带标签的有向图。

图5显示了这样一个图的摘录,给出了一个例子,说明Haystack如何帮助可视化这些语义丰富的出处资源之间的语义链接,用于图2中的实验。事实上,我们已经发现关系网络是如此密集,以至于图形的完整呈现变得难以解释。因此,我们过滤掉除了一小部分与用户和任务相关的语义关系之外的所有关系。在图5的情况下,仅显示13个RDF属性:显示数据项(从)之间的关系、服务(输入、输出)之间的数据流、资源的一些组织信息(例如,由设计、组、项目等创建的),以及来自不同来源日志的数据之间的一些知识链接(类似的顺序)。通过利用Haystack的能力,我们还可以根据我们的起源金字塔将这些语义链接分成四个级别,可以从Haystack的视图面板中选择,如图5所示。
然而,我们预计这种基于图形的整个出处日志视图不会为最终用户提供完整的解决方案。传统的网络本身就是一个由超链接关联的文档图,然而它很少被这样呈现。因此,我
们更多的注意力已经集中在为用户提供一个浏览源网页的网页浏览器隐喻上。Haystack提供了一个应用程序框架,允许开发人员将复杂的RDF子图呈现到用户界面屏幕上,这些屏幕表现得像更熟悉的网页框架。每一类资源可以与Haystack所称的“视图”中的一个或多个相关联。这是一个用一种新颖的高级编程语言腺嘌呤编写的规范,说明了如何解释与该资源相关联的元数据,以便为该资源构建一个类似网页的界面。更多信息参见全等[13]和[8]。
我们使用
Haystack的经验是有希望的。它提供了一个快速原型环境,在这个环境中,我们可以与用户一起探索与基于RDF的出处信息进行交互的最有效的方式**。通过提供一个我们可以在其中构建起源视图的应用程序框架,它使我们能够绕过编写核心应用程序和用户界面组件所需的大量工作。当在Haystack中向我们合作的生物信息学家显示RDF编码的出处时,他们很满意在Haystack中浏览这些RDF日志时语义关系是显而易见的。通过导航和单击,他们可以跟随资源之间的超链接,由底层
在这里插入图片描述

语义关系。此外,当面对来自起源日志的大量数据时,用户可以选择不同的谓词集,以便根据手头的任务从概念上以多种方式对起源数据进行分组。例如,如第2节所介绍的,当科学家处于“调试”实验结果的阶段时,他们可能有兴趣从过程的角度查看出处日志,以跟踪实验是如何执行的。在“有效性检查”阶段,数据视图可以更好地支持科学家在实验中跟踪数据导出路径。Haystack依靠本体来驱动元数据的呈现这与本体在我们起源中的核心作用非常吻合**。在Taverna应用程序的出处生成过程中,与资源相关联的本体类直接影响着这些资源在Haystack中向用户显示的方式。干草堆LSID客户端功能也有好处。用户可以在Haystack中输入出处资源的LSID,元数据将从myGrid LSID元数据解析器中检索并适当显示。然而,在我的网格中,我们遇到了一些关于干草堆和LSID方法的问题。Haystack是一个需要大量资源的大型桌面应用程序。这与生物信息学家对轻量级网络应用的偏好形成对比。同样使用图4所示的体系结构,我们必须依赖于通过LSID协议检索出处元数据。因为该协议一次只允许检索一个资源,所以要提供广阔的视野涵盖许多资源,我们必须进入一个零碎重复的检索过程,并在本地Haystack RDF库中慢慢建立完整的图片

探讨

将电子实验捕获为工作流,其输出形成一个自然的数据网络。这些可以分别用RDF和LSIDs来描述和识别。在themyGrid项目中,这些来源数据是沿着四个视图记录的:过程、数据派生、组织和知识。知识或语义组件是必需的,以便提供对起源数据中异构语义类型的通用视图,并允许完成基于起源的任务。我们的实现自动跟踪过程和数据来源,并将必要的组织来源附加到实验数据中。**Taverna工作流环境通过其模板机制提供了附加知识层次起源的工具,并由生物信息学服务的myGrid本体支持。这种机制还自动提供通过LSIDs链接到数据的RDF描述。科学家可以通过Haystack工具浏览这些出处数据。然而,这一成功暴露了几个问题。**如第4.2节所述,存在一个问题,**即如何将这些来源数据呈现给用户——一个图表或一个熟悉的网络表单合适吗?**还有一个更广泛的可用性问题,从按钮和链接标签、击键和速度的微观尺度,到支持基于预先的任务的计算机实验的有效性、效率和满意度的宏观尺度。我们当前的实现和经验没有提供关于我们处理和呈现起源数据的可伸缩性的线索。随着许多用户运行许多实验,将产生大量高度链接和注释的数据。有一个问题是,所有这些数据的表示和计算处理是否都是可伸缩的。鉴于我们增加了这些数据的语义描述,我们完全期望能够将这些数据的机器处理添加到我们工作的当前人类重点中。通过完全实现和管理起源数据的本体,可以通过对与数据资源相关联的语义进行推理来实现对这些数据的语义支持的处理。这将允许对这些日志进行语义查询,基于日志提供关于数据的信任信息,等等。在我们对出处使用的描述中,我们给出了一个场景,在这个场景中,**所有用户都可以浏览所有出处数据,甚至可以对其他人的数据进行注释。**显然,在这种情况下,存在着深刻的安全和授权问题。生物学家和其他人一样,对新数据和相关发现非常有安全意识。为了支持对实验存储库中的子图的访问,需要在RDF范式中加入许多授权级别
这些观点并不矛盾,但建立在我们为电子实验证明语义网出处的成功基础上。为出处提供这样的支持对于电子实验的性能至关重要,并且为语义网的概念和技术提供了一个丰富的测试平台。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nefelibat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值