GAKG: A Multimodal Geoscience Academic Knowledge Graph 多通道地理学学术知识图谱
2021.09
现有的主要关注概念的外部联系,然而内部的多模态数据的潜在的丰富信息大多被忽略了。
本文基于各类地学期刊发表的112万论文,提取插图、表格、文本,获取知识实体、文章时代空间属性,耦合多模态数据和特征。创新之处在于将机器阅读、信息检索和人在回路的人工标注技术结合。
本文贡献:
1、本文挖掘论文内部插图、表格、文本、文献计量学数据等,耦合多通道学术数据和特征。
2、通过世界地图将所有信息融合在一起,论文之间行成强相关性和高耦合性。
3、提出一种人在回路的实体提取管道,提取知识实体,并映射到众包知识分类,人机交互减少工作量。
4、6800多万个三元组,定期更新。
一、GAKG本体论
包含11个概念19个关系连接39个数据属性。
**论文:**属性包括标题(标签)、摘要、DOI、原始URL、论文发表的年份和日期、问题、卷、期刊的起始页和结尾页。其中,属性标题重用了AXIOM rdfs:Label,属性原始URL重用了Axiom foaf:Page。
**期刊:**3个属性
**作者:**2个属性
**从属:**作者的领域从属关系,5个属性
**主题:**3个属性,包含图像url
**图解:**3个属性
**表格:**3个属性
**知识:**解释关键信息的item,3个属性
**地理位置:**3个属性
**时间尺度:**3个属性
GeoHash
GAKG数据集以RDF (N-Triple)格式保存。
二、构建
1、知识主体的抽取
提出人在回路的知识抽取方法。
首先确定要提取的核心知识,定为5个问题,关系都是paper的属性。
从摘要中回答问题:在GAKG引文网络部署网络嵌入来计算论文实体的嵌入,使用BERT对论文实体的嵌入与标注文章摘要的嵌入向量融合。用ERNIE框架训练机器阅读理解模型,训练集是2000篇由专家注释的摘要中的问题答案。最后为其余文章生成答案,这样获得问题答案对。
ERNIE:百度的持续学习的语义理解预训练框架,基于BERT做的。
连接知识实体与答案,提取了230万多的概念,每个词表示为文本语料库的TF-IDF矩阵中的一个列向量,为答案中实体排名,选出最好的三个。
TF-IDF:如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF是词频表示词条在文本中出现的频率,IDF表示总文档数/出现该词的文档,TF*IDF越大越好。可用于提取关键词
2、地理学知识分类学
构建知识分类,并把Human-in-Loop系统提取的知识实体映射到该分类。
geologic time scale information mining
geographic information extraction
3、地理信息的提取
地理插图:提取图片并筛选,从插图中提取地名、坐标。
地理社会政治实体:基于BERT提取,位置归一化。