Metadata in the Collaboratory for Multi-Scale Chemical Science(多尺度化学科学合作中的元数据论文阅读)


多尺度化学科学合作组织(CMCS) 的目标是开发一种基于信息学的方法来合成多尺度化学信息,以创造化学科学知识。CMCS正在使用一个门户和元数据感知内容存储库作为基础,构建一个支持化学科学领域间知识交流的系统。该系统的关键方面包括可配置的元数据提取和翻译,科学谱系的核心模式,以及一套用于管理数据和元数据以及可视化数据条目之间谱系关系的工具。CMCS元数据使用都柏林核心表示,元数据扩展对化学科学界和一般科学界都很有用。CMCS正在与几个化学小组合作,他们正在使用该系统来协作收集和分析现有数据,以获得新的化学知识。在本文中,我们讨论了项目的元数据相关需求、相关的软件基础设施、核心元数据模式以及使用元数据增强科学的工具。

实现规模之间数据和元数据的丰富双向交换是取得进展的关键问题。

数据谱系是唯一定义数据的元数据,并提供了一个可追溯的路径来追溯其来源。在CMCS,我们使用术语“科学谱系”来获取数据的标识、数据的可追溯性,以及前面讨论的一些准确度和灵敏度值
目前协调多尺度研究的人工方法本身不能适应未来几代化学科学研究产生的数据量,也不能适应以具有成本效益的方式解决国家科学问题所需的效力和效率水平。化学科学研究人员面临的多尺度通信挑战不是特定学科的。因此,化学科学中这些问题的解决方案将为多尺度科学提供一个模型,可以指导其他领域的工作。

元数据是这种以数据为中心的基础架构的核心,支持跨规模发现数据,并保留数据来源或谱系。在本文中,我们讨论了都柏林核心[3]在CMCS是如何使用的,描述了我们当前的化学和科学谱系的元数据定义,描述了我们的CMCS元数据基础架构,它建立在DAV [4]之上,使用科学注释中间件(SAM) [5],并展示了该元数据基础架构如何支持数据谱系浏览、搜索和其他有用的科学
CMCS开发了一个高级数据存储库,可以自动执行数据发现、翻译和谱系跟踪的许多方面。[1]描述了CMCS项目的总体范围。在本文中,我们忽略了关于门户架构的细节,而是讨论了元数据感知内容存储和门户中可用的相关最终用户功能。在第4节中,我们讨论了可通过门户获得的元数据应用程序。
可以仅限于元数据。此外,系统架构还可以将数据视为不透明的,并且不需要对其格式进行限制。相比之下,因为元数据必须被理解和操作,所以它的格式必须以机器可理解的形式显示其含义。这种分歧的一个重要后果是,它最大限度地减少了允许双方合作所需的努力——不需要对任何应用程序进行更改,也不需要就术语的含义达成协议,除非这些术语直接涉及将交换的价值。

元数据在CMCS以下列方式使用:为科学数据提供识别和记录。

记录数据的上下文和价值。{例如,在Ecce(可扩展计算化学环境)[6]中计算的甲基氢过氧化物的理论雾化能量(及其不确定性)
这是一个在分子尺度上解决计算化学问题的环境,包含识别物种和数量、单位、所用理论方法、振动频率和几何形状、源文件参考、创建者等的信息。}通过显示输入、数据和输出的跨尺度链,
通过将数据与其文献参考联系起来,促进数据的跨尺度传输。
允许用户对数据及其质量进行评论,例如,对数据进行科学同行评审。使领域科学家的合作更加有效。

如何使用元数据对数据集进行注释

在这里插入图片描述
CMCS正在使用科学注释中间件**(SAM)** 来提供元数据管理能力。SAM提供了一个基于网络的分布式创作和版本控制(WebDAV或DAV)协议[4]的底层数据和元数据存储库视图。DAV是互联网工程任务组(IETF)对HTTP/1.1协议的标准扩展集,支持网络上的基本数据管理,包括存储和检索类型化的、不透明的数据文件/对象、内容锁定、分层集合以及带有任意元数据的数据注释。DAV在由格式良好的XML键:值对组成的属性中定义元数据的格式,并提供创建、移除和查询它们的操作。因此,CMCS所有可搜索和可浏览的元数据都存储为DAV属性。元数据可以与文件和集合相关联。元数据可以来自多个模式和名称空间中的多个用户,也就是说,不仅仅是数据创建者。元数据也可以在数据生命周期的任何时候添加,也就是说,不仅仅是在文件创建时。数据本身可以是任何类型的文件。

SAM

SAM基于雅加达幻灯片,这是DAV的开源Java实现。作为具备DAV功能的服务器,SAM接受任意文本/XML元数据,并且作为其元数据管理服务的一部分,SAM使用元数据生成转换器生成用户定义的元数据。元数据生成器是每当具有给定多用途互联网邮件扩展(MIME)类型的文件被添加到数据存储库中时执行的脚本。要生成的元数据属性基于MIME类型(如果未指定,则基于文件扩展名指定)和上传数据的内容。SAM可以配置为运行用户定义的XSLT脚本,以从XML文件中确定更具体的MIME类型,因为许多文件都有。xml扩展。当一个可扩展标记语言文件被添加到

此外,我们的CMCS模式是可扩展的,新的元数据可以添加到这个模式中。可以开发其他模式,这些元数据属性可以作为DAV属性提供。我们目前正在探索可以细化和扩展这个核心谱系模式的方法。例如,我们预计一些社区和一些用户将需要比CMC更好的区别:区分参数和数据等。CMCS映射机制将使我们能够很容易地将这些新元素与cmcs的整体概念联系起来:hasinputs和更广泛的谱系概念。此外,我们希望为科学同行评审添加新的元素。目前,我们只定义了正式批准的概念,然而科学同行评审过程比一个单独的批准印章要丰富得多

cmcs:hasinputs元数据属性的值示例

在这里插入图片描述
在DAV属性中使用超链接作为元数据允许用户将资源相互链接。对于科学家来说,当他们需要为特定的资源找到谱系树时,这可能是非常强大的。在下一节中,我们将展示CMCS元数据的这一应用和其他应用。

利用和操纵CMCS元数据的工具

用于浏览和操作元数据的Portlet,我们开发了一个CMCS浏览器portlet,允许用户浏览数据库中的CMCS元数据,并添加和编辑元数据。元数据查看器和编辑器的截图可以在图3中看到。如您所见,元数据以人类可读的格式(文本和超链接)出现,即使它存储为XMl
在这里插入图片描述
在这里插入图片描述
如图3所示,谱系浏览器(与元数据查看器/编辑器相同的工具)允许用户查看特定资源的科学谱系。如果用户点击系谱浏览器中的链接,用户可以通过CMCS DAV商店遍历系谱树,即链接是实时的。如果在系谱浏览器中遇到新的CMCS DAV链接,其系谱将被带入系谱浏览器。如果遇到非CMCS-大卫链接,它将被视为任何其他网址,并出现一个新的网页浏览器窗口,加载该网址。
可以想象,有多个关系(dc:references,cmcs:hasinputs,cmcs:hasoutputs,仅举几个例子),每个引用的子树可能会变得复杂。例如,一个资源可能具有针对每个关系值列出的多个链接,并且科学谱系可以跨多个化学标度进行追踪,使得每个谱系分支的长度大于1。通过简单地遍历链接,用户很难看到数据与其他资源的关系。因此,我们开发了一个谱系图形portlet,如图5所示。这个portlet为科学家提供了数据集合或文件及其所有科学谱系关系的二维可视化。用户现在可以很容易地看到关系,而无需遵循所有的谱系链接。
在这里插入图片描述

结论

CMCS正在开发管理科学元数据和谱系的概念和工具。我们开发了一套基本的能力,使几个国际化学家小组能够组装数据库,通过元数据和科学谱系评估条目的整体质量和对小组工作的适用性,并记录他们的小组过程和最终结论,以便向公众传播。这些团体正在使用CMCS元数据基础设施和工具来协作和影响科学。这些化学组的具体细节超出了本文的范围;然而,CMCS现有的数据、元数据和系谱信息显然将超越“玩具问题”。CMCS门户、SAM/DAV数据存储库、CMCS探索者门户以及一些其他工具和应用编程接口独立于化学科学社区,并对其他科学家具有广泛的适用性,例如物理或生物信息学社区。我们希望在不久的将来发布一个通用的科学门户和元数据以及科学谱系基础设施,作为开源软件。其他科学社区可以用最少的努力创建一个元数据感知协作的实例。我们已经开始探索在CMCS数据/元数据存储库中启用的第三方注释和科学同行评审。除了开发正式的流程和支持工具之外,还必须解决许多社会和法律问题,以允许第三方注释者向数据集添加元数据。跨尺度的谱系粒度可能不匹配,我们正在研究解决这个问题的方法,以便跨尺度的科学谱系是明确的。对CMCS的进一步改进包括可视化生成映射、从注册的映射中提取概念模型等。给研究人员更多的权力。CMCS正在开发下一代科学工作所需的技术,并正在探索使用语义技术来管理科学数据。其结果将是一个持久的元数据基础设施,具有广泛的、丰富的互连化学数据集和元数据。我们相信我们的概念在科学研究中特别有价值,因为在科学研究中,知识是不完整的,并且会随着新数据的变化而快速变化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nefelibat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值