Journal of Web Semantics(2016) | Building event-centric knowledge graphs from news |
---|---|
Author | Marco Rospocher, Marieke van Erp, Piek Vossen, Antske Fokkens, Itziar Aldabe,German Rigau, Aitor Soroa, Thomas Ploeger, Tessel Bogaar |
url | https://www.sciencedirect.com/science/article/pii/S1570826815001456 |
keywords | Event-centric knowledge, Natural language processing, Event extraction, Information integration. Big data, Real world data |
得益于在搜索引擎中的应用,在过去几年里,知识图谱越来越受欢迎。通常情况下,它们包含了一些静态和百科全书式的关于个人或组织的事实。例如从Freebase或Wikipedia等大型知识库中获得的名人的生日、职业和家庭成员。
本文提出了一种从新闻文章中自动生成知识图谱的方法和工具。当新闻文章通过报道事件来描述世界的变化时,我们提出了一种使用最先进的自然语言处理和语义web技术来构建以事件为中心的知识图谱(ECKGs)的方法。这些ECKGs记录成千上万个实体的长期发展和历史,是对传统知识图谱中静态百科全书信息的补充。
我们描述了我们以事件为中心的表示模式、从新闻中提取事件信息的挑战、我们的open source pipeline以及我们从四个不同的新闻语料库中提取的知识图谱:常规新闻(Wikinews)、国际足联世界杯(FIFA world cup)、全球汽车工业和空客A380飞机。此外,我们还评估了流水线方法在抽取知识图谱三元组时的准确性。此外,通过一个以事件为中心的浏览器和可视化工具,我们展示了如何以事件为中心的方式从新闻中获取信息,从而增加用户对领域的理解,促进新闻故事线的重建,并能够对新闻隐藏的事实进行探索性调查。
1 引言
由于在搜索引擎中的应用,知识图谱在过去几年里越来越受欢迎。知识图谱是以实体为事实的知识库,通常从结构化知识库或百科全书知识库中获取。例如,给定一个名人,知识图谱中通常包括他的出生日期、出生地、亲属以及使他成名的重大事件和活动等信息。然而,只有一小部分世界上正在发生的事情能真正进入这些数据库。有很多事件被认为不够重要,不足以被包括在内,或者可能不与这些名人有联系。此外,当前的知识库倾向于表示世界的实际状态,而不关注动态和随时间的变化。 在日益增长的日常新闻中,越来越多的流动信息往往会迷失在当前的知识图谱和我们逐渐消失的记忆中,但对于那些需要重建某人过去或整个行业、地区或组织的庞大历史的信息专业人员来说,这一点非常重要。因此,需要一种不同类型的结构化数据库,围绕事件而不是实体和以实体为中心的实际事实。获取这种动态知识需要将事件视为存储知识的单元,而不管相关人员的名声如何。
在本文中,我们提出了一种方法和一个开源工具包,可以自动地从英语、西班牙语、意大利语和荷兰语的新闻文章中构建这种以事件为中心的知识图谱(ECKGs)。我们将以事件为中心的知识图谱定义为一个所有信息都与事件相关,知识通过这些事件获得时间维度的知识图谱。在传统的KG中,信息通常以实体为中心。然后可以找到RDF三元组(主语、谓语、宾语),其中主语和宾语通常是实体,有关事件的任何信息通常都是通过谓词捕获的。在ECKGs中,三元组的主题通常是与实体相关并与时间绑定的事件。这将使专家们能够通过共享事件重建历史和跨越许多不同的人和组织的网络。动态趋势和区域变化可以从实例抽象和时间方面进行推理。
考虑以下保时捷公司的例子。在DBpedia中,保时捷公司的条目提供了一些三元组,说明它是什么类型的公司,它生产什么样的汽车,它拥有什么样的管理层,等等。它没有列出交易的历史、市场事件、管理层的变化,也没有列出较长时间内的成功和失败。 2015年10月15日,维基百科对同一家公司的条目用自然语言给出了一段简短的历史,包括它是如何在2009年被大众汽车完全收购,但在2013年通过从卡塔尔控股公司(Qatar Holding)回购10%的股份,在大众汽车集团内部获得了100%的投票权。在DBpedia中,这个历史记录没有被表示为结构化数据。如果我们下一步看看卡塔尔控股公司的维基百科页面,我们还会发现自然语言文本中的一段简短历史,而在相应的DBpedia条目中,它没有被表示为结构化数据。有趣的是,卡塔尔控股的历史提到,它目前仍持有大众汽车集团和保时捷约17%的股份。报告中没有提到这10%的股份在2013年被出售回保时捷家族。显然,这一事件对保时捷SE的历史意义重大,但对卡塔尔控股历史而言却不重要。由于事件是我们ECKG中的中心(类似于许多其他KG中的实体),因此这些买卖事件都表示为单个事件,其中保时捷损失了资产,而卡塔尔控股则收购了资产,无论两家公司的看法如何 及其与任何一个的相关性我们让用户在时间、地点和参与者周围对事件进行排序,从而从新闻报道的所有事件的完整表现中重建故事情节或历史。
从表示的角度来看,在我们的ECKGs中,每个事件都是我们知识图谱的一个节点,并由一个URI唯一标识,在这个URI上可以通过三元组断言各种属性。这提供了事件的同质表示,与其他资源中发生的事件不同:例如,在DBpedia中,类似的表示只适用于命名的事件,例如http://dbpedia.org/resource/2009_Japanese_Grand_Prix, 而没有确定名称的最小数量的较小事件被这样的属性捕获http://dbpedia.org/property/acquired。
通过利用最先进的自然语言处理(NLP)技术,我们自动提取有关数百万新闻文章中提到的事件的信息,以及事件参与者,时间和地点的信息。所有提取的内容都在ECKG中以语义网最佳实践为基础的结构化表示形式进行组织。此外,这些信息链接到可用的链接数据资源(例如,只要有可能,参与事件的实体都链接到其DBpedia引用,否则将创建我们知识库中的实体实例)以及被提取的文本出现的位置。识别出事件并将事件锚定到时间最终会导致长期发展和故事情节的表现,其中事件通过诸如因果关系或并发关系之类的桥梁关系而联系起来。这些“历史”是根据新闻的变化而不是传统知识图谱中的静态属性和事实重新构造而成的。
为了构建一个ECKG,我们确定了四个主要的信息抽取挑战:(i)在形式语义ECKG模型中正确地建模文本中信息的表达和表达式的引用值;(ii)根据ECKG数据模型正确地提取和解释新闻文章中包含的信息;(iii)将提取的信息链接到已建立的链接数据知识库(例如,DBpedia);(iv)建立实体和事件在不同来源间不同表示的引用标识,(例如,不同新闻文章中提到的同一实体或事件),可能使用不同的语言。
我们的方法解决了所有四个挑战,如我们在几个不同领域构建的四个知识图谱所示。从文本语料库中,我们构建了我们的ECKGs,范围从几百到数百万条新闻文章。我们流水线模型中的各个模块的性能都达到或超过了当前自然语言处理技术的最新水平。我们的ECKGs可以用来回答使用传统KGs或未经处理的源文档很难回答的查询,这是当前信息专业人员的事实标准。据我们所知,我们是第一个从大型非结构化新闻文章文本集合自动构建ECKGs的公司。此外,我们的方法还可以跨语言工作,可以集成从不同语言中提取的ECKGs。
本文从ECKGs的角度,结合了NewsReader项目的一些文章中的贡献。这些贡献包括:
- 以事件为中心的知识图谱的定义(第一节)
- ECKGs的正式语义表示,包括对原始源的引用(第3节)
- 四种语言中事件知识图谱的提取方法和开源工具(第4节)
- 四个公开可用的ECKG(第5节)
- 自动创建的ECKGs质量的第一次评估(第6节)
论文结构如下。在第2节中,我们描述了背景和相关工作。在第3节中,我们将描述如何对提取的信息进行建模。在第4节中,我们将描述我们的流水线模型。在第5节中,我们描述了我们的四个用例,即通用新闻、国际足联世界杯和全球汽车工业,以及有关空客A380的不同语言的新闻文章。在第6节中,我们报告了用我们的方法自动创建的ECKGs的准确性的第一次评估。在第7节中,我们将介绍使用SynerScope工具的以事件为中心的信息访问,并报告ECKGs支持的其他应用程序和调查。在第8节中,我们将讨论我们的方法和结论。
2 背景和相关工作
知识图谱(KG)被广泛用于增强搜索引擎(例如Google知识图谱,Microsoft的Satori)提供的结果。 这些KG通常由结构化数据存储库提供支持,例如Freebase,DBpedia,Yago和Wikidata(它们本身也是KG),传统上它们都集中于百科全书的事实和知识。 包含一些信息,例如某位名人的姓名和/或姓氏,出生日期和地点以及她的专业活动。 动态信息,例如新闻中报道的涉及该人的最新事件,通常不会捕获到这些资源中,因此大多数知识图谱都会丢失这些信息。
这部分是由于缺乏提供关于事件的结构化内容的资源。事实上,只有少数描述事件的链接数据资源可用:Last.FM和EventMedia.Last.FM是的RDF版本的Last.FM网站,包含有关事件,艺术家和用户的信息。EventMedia是三个公共事件目录的集合(last.fm,eventful and upcoming)和两个媒体目录(flickr、YouTube)。事件用LODE本体表示,而媒体用W3C本体表示,用于媒体资源。它与DBpedia、Freebase、geonames相连,还包含链接MusicBrainz, Last.fm, Eventful,Upcoming,and Foursquare的许多相关网页。在生物医学研究领域,知识库例如Bio2RDF和openphacts已经出现。然而,这些资源是从已经结构化的数据中构造的,而我们的ECKGs是从纯文本源构建的。我们的方法的不同之处在于它可以处理任何新闻文章,因此不受特定网站或领域的限制。
在过去的几年中,支持知识图谱