开源开放 | 多模态地球科学知识图谱GAKG

OpenKG地址:http://openkg.cn/dataset/gakg

网站地址:https://gakg.acemap.info/

论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:王新兵,张伟楠,邓程等上海交通大学Acemap团队成员,深时数字地球大科学计划团队


1、背景

地球是一切生命的摇篮,也是人类赖以生存的家园,研究地球的自然科学称为地学,包括地理学、物理学、化学等学科。纵观历史,古生物学家研究从46亿年前至今地球上各物种的特征和环境演变,探索环境变化对生物多样性的影响地理学家研究地形、土地形态和气候,发现人类生活引起的全球变暖与地轴飘移有一定关联。地质学家探索海洋,为人类带来更重要的资源,如稀土矿物。由此可见地学在学术领域中扮演的角色不仅让我们了解人类与地球的关系,也帮助我们了解当前 的变化。

目前,地学的数据库资源集成度较低,学术知识图谱比较稀少,且往往是概念级的,只是简单地让每个实体代表一个地理对象。与其他学科不同,地学数据包含大量丰富的地理位置、地质时间尺度和反映地学多模态的地图。因此这种文献计量学信息无法综合反映地学学术数据,文章中离散的图像、文本和时间尺度也没有得到充分耦合。这一现状可能阻碍地学的研究。为解决上述问题,上海交通大学Acemap研究团队背靠DDE项目设计了一个新颖的地球科学多模态学术知识图谱GAKG,希望能为地学领域、数据挖掘和信息检索领域的研究者们提供数据和服务。

2、数据集简介

如前所述,GAKG 是⼀个⼤型多模态学术知识图谱,其中所有的数据均来⾃ AceMap (https://www.acemap.info/ )。GAKG的模式图由11个概念和19个连接概念的关系组成。每一个实体都有一个概念与之对应,并且具有一定的属性。具体概念相关信息如表 1 所示。

5ae2dbf3ecc8ad5c9e719a0fac6a9d6c.png

表 1 概念及其含义、属性和数量

关系也可以被视为概念的对象属性。具体概念相关信息如表 2 所示。

c8af948d4583366ec553a40c65c4dce9.png

表 2 关系及其解释和数量

3、构建过程

3.1 知识实体抽取

GAKG提出了Human-In-the-Loop方法来进行知识实体抽取。我们首先提出5个问题,分别对应5种知识与论文之间的关系,随后利用基于ERNIE的模型框架训练机器阅读理解模型,用于对所有论文找出每篇论文对这5个问题的答案,最后将其与知识实体联系起来。具体信息见表3。

382c6f0182c7deb25fdf1063cadb59f0.png

表 3 问题及其对应的关系和数量

3.2 地球科学知识本体

在资深地球科学家的帮助下,我们结合维基百科的分类和AceMap界定的学术领域之间的关系,构建了地球科学知识的层次结构。GAKG认为学术知识图谱的本体是学术的知识体系,实例为一篇篇论文。

3.3 地理位置信息提取

地理位置的数据主要来自于配图和论文中提及的文本。对于地理插图,我们首先通过pdffigures2进行图片抽取,随后使用PaddleOCR进行文本识别,再通过geocoder生成坐标并从插图中的数字提取经纬度范围。OCR识别的一个例子如图1所示。对于地理/社会/政治实体,我们构建了基于BERT的命名实体识别模型,并通过geocoder得到坐标。

8ed9aa53364faf72bc11de8c5d2d19fe.png

图 1 插图坐标提取的一个例子。(a)为OCR结果,(b)高亮了识别错误

3.4 地理年代信息提取

我们开发了基于规则的增强信息提取方法,提取了论文标题、摘要和导论中提到的地理年代信息的实体。根据地理时代词在论文中的位置以及前后出现的词,计算置信度得分并选取达到一定阈值的。论文的地址时间尺度分布如图2所示。

dccc82aac0a54509a277ccc27861fe62.png

图 2 随地质时代的论文分布

4、地学应用

地球科学的探索,是将各学科知识落实在地球未知的区域、未知的时代和未知的领域中。我们面向对地球科学知识有一定研究和专业背景人员,基于全域地学知识图谱,提供学科或主题科技资源的语义信息检索和知识发现服务,支撑大数据-大知识双轮驱动的地学创新研究。

一个创新的研究,要对学科领域的论文进行充分的调研,地学也是如此。我们对此给出多模态的地学语义搜索系统。区别于谷歌学术等学术搜索引擎,GAKG-Search基于GAKG的地学文章知识点和提及的关键要素进行语义层面的相关性匹配,并返回论文及论文涉及的图片、表格、时代以及地理位置信息,弥补了关键词匹配式搜索忽略了语义信息的缺点。

f629c187fb9d5015353a208aac3a2369.png

一个学术的探索,要对领域的知识体系有全面的认识,并且也要清楚了解知识体系中的各类知识点涉及的论文、年代和地理位置信息。GAKG-Navi提供了由地学专家人工挑选的地学全知识体系的可视化,同时每个知识点关联了相关的论文、图片、表格、百科知识和数据集,并对相关的文章给出机器生成的总结摘要。用户可以在此独特的系统中进行知识点的遨游和穿梭。

72424010e7c6dfb26785ab8a825bdee9.png

ba2752d905abe2dcf6085091bd19a44d.png

在进行地学知识的探索过程中,要对文献在世界上的分布有充分的认识,GAKG-PaperOnTheMap提供了基于Paper关联POI的数据,每篇文章谈论涉及若干地点,本系统通过GPE抽取和经纬度坐标抽取将论文与地理信息系统关联起来,联同论文谈论的年代信息,给学者以时空维度的论文检索体验,方便学者对地学知识进行探索。

f938e890a909780e273f0c58d8f0d090.png

e2ab65f81c78ed5a8a970fe64ada328e.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

3c079e4f95f8445197673cadeac80976.png

点击阅读原文,进入 OpenKG 网站。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多模态知识图谱是指将不同模态的数据(如文本、图像、视频等)融合到同一个知识图谱中,从而实现跨模态的知识表示和推理。多模态知识图谱的构建需要解决跨模态数据的融合和对齐问题,以及跨模态知识表示和推理问题。其中,知识图谱路径嵌入是指将知识图谱中的路径转化为低维向量表示,从而实现对路径的语义理解和推理。 以下是多模态知识图谱知识图谱路径嵌入的介绍和演示: 1. 多模态知识图谱的构建 多模态知识图谱的构建需要解决跨模态数据的融合和对齐问题。一种常用的方法是将不同模态的数据分别表示为向量,然后通过对齐不同模态的向量空间来实现跨模态数据的融合和对齐。具体来说,可以使用多模态嵌入方法(如CCA、AE等)将不同模态的向量映射到同一个低维空间中,然后将映射后的向量作为节点特征构建知识图谱。 2. 跨模态知识表示和推理 跨模态知识表示和推理是多模态知识图谱的核心问题。一种常用的方法是将不同模态的知识表示为低维向量,然后通过向量之间的相似度计算来实现跨模态知识推理。具体来说,可以使用跨模态嵌入方法(如TransE、TransH等)将不同模态的知识映射到同一个低维向量空间中,然后通过向量之间的相似度计算来实现跨模态知识推理。 3. 知识图谱路径嵌入 知识图谱路径嵌入是指将知识图谱中的路径转化为低维向量表示,从而实现对路径的语义理解和推理。一种常用的方法是使用基于路径的嵌入方法(如PTransE、R-GCN等)将知识图谱中的路径映射到低维向量空间中,然后通过向量之间的相似度计算来实现对路径的语义理解和推理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值