知识图谱综述(二)

知识图谱综述(二)

论文《Knowledge Graphs》原文链接

这部分为《Knowledge Graphs》的引言(页码1)部分,主要包括了六点内容:相关工作、KG的概念、KG的应用、本文使用的例子(智利的旅游业)、KG综述文献对比、本文结构。

下文的每一小点即论文中的一个段落。

  1. 相关工作

    • 1972年,最早使用KG一词;但2012年Google提出现代KG的概念。随后其他大公司(Airbnb、亚马逊、eBay、脸书、IBM、领英、微软、优步等)也开始使用KG。同样,学术界也开始发表关于KG的书籍、论文、概述、定义、新技术、综述等。
    • 随着“使用图来表示知识”这一核心理念的提出和发展,KG用来明确地表示知识,它从大规模的多样化数据源中整合管理抽取有价值的信息,以服务于各种应用场景。与SQL和NoSQL相比,使用基于图的知识抽象有很多好处
      • 为某个/多个领域提供简洁直观的抽象;
      • 表示(社交类数据、生物间交互、书目引用、共同作者、交通网络等等中的)实体间的关系
      • 图允许延后一个模式的定义,可以先捕获不完整的知识,更灵活
      • KG支持标准的关系运算符(联结joins、关联unions,投影projections等),还支持使用导航运算符来递归地找到任意长度路径下相连的实体
      • 标准的知识表示形式——例如本体规则,可以用于定义和推理图中术语的语义,这些术语是用来标记和描述图中节点和边
      • 图谱分析的可扩展框架可以用来计算中心性、聚类、图摘要等,以深入洞察该KG所描述的领域;
      • 各种表示技术的发展,使得可以直接在图上应用机器学习技术。
    • 构建和使用KG的潮流促进了一系列技术的发展,即从各种数据源中整合和抽取有价值的信息。然而,还没有一个通用且统一的KG概念(即本论文要解决的问题、本论文的目标)总结来描述如何使用KG、运用什么技术、如何与已有的数据管理主题相关联
    • 本论文的目标人群是不熟悉KG的研究人员和从业者(即KG小白),本论文的目标是全面地介绍KG,包括以下几个方面:
      • 描述一些KG的基础数据模型、如何对它们进行查询
      • KG的表示:模式标识符上下文
      • 使知识更清晰表述的方法:演绎归纳
      • 创建(构建)和丰富(充实、扩充)图结构数据的各种技术;
      • 了解KG的质量评估,基于如何对KG进行改进
      • 出版KG的标准最佳实践
      • 目前现有KG应用的概述
  2. KG的概念

    • 不论是从技术上定义还是更一般化的定义,KG的定义是有争议的,甚至许多定义之间是相互矛盾的,本文在附录A中论述这些先前的定义。
    • 本文采用了一个包容性的更一般化的KG定义,即KG旨在积累和传达现实世界知识的知识,它的节点代表人们感兴趣的实体,它的则代表这些实体之间的关系
    • 数据图是属于基于图的数据模型,它可能是多关系图、属性图等等(第2章将讨论其他的图)。
    • 知识已知的事物,它可以是从外部数据源中所积累的,或者抽取自KG本身。知识可以是由简单的陈述句(如“北京是中国的首都”)或者量化语句(如“所有首都都是城市”)组成,前者可以直接汇总为数据图中的,后者则需要一种更具有表述力的方式来表示——本体或规则
    • 演绎方法可以进一步推导出更多的知识(如“北京是一个城市”)。
    • 归纳方法可以从KG中提取和总结其他额外的知识,这些额外的知识都基于简单的称述句和量化语句
    • KG的数据来源是多样化的,因此数据本身在结构和粒度方面将更加多样化。为了解决多样性带来的困扰,模式、标识符和上下文的表示起了关键作用:
      • 模式定义了KG的高层次结构
      • 标识符表示图(或者外部数据源)中的哪些节点是表示现实世界的同一个实体
      • 上下文可能表明一种背景设定某些知识片段内总是客观且真实存在的。
    • 总之,想要让一个KG随着时间不断发展和改善,必须要有可靠的方法来进行知识抽取丰富质量评估精化
  3. KG的应用

    • 在一个组织或者社区里面,KG是一个不断进化的共享基础知识库。
    • 在应用层面,主要有开源KG企业KG两种。开源KG在网上发布,大家都能用,如最有名的DBpedia、Freebase、Wikidata、YAGO等,它们涵盖了各种领域,它们都是从Wikipedia中提取得到,或者由志愿者社区构建的。此外,开源KG也会在特定领域内发布,例如媒体、政府、地理、旅游、生命科学等等。企业KG公司内部使用并用于商业用例。使用企业KG的主要行业包括Web搜索(例如必应、谷歌)、商业(例如Airbnb、亚马逊、eBay 、优步)、社交网络(例如Facebook、LinkedIn)、金融(例如埃森哲、意大利银行 、彭博、第一资本、富国银行)等等。具体应用软件包括搜索引擎、推荐系统、个人代理、广告、商业分析、风险评估、自动化等等。本论文将在第十章讨论具体的应用细节。
  4. 本文使用的例子(智利的旅游业)

    • 为了便于讨论,本论文基于智利旅游业相关的KG假设背景下提供具体示例。该KG由被一个旅游局管理,目的在于促进该国旅游业的发展,以及发掘策划区域的新景点。该KG本身将描述旅游景点文化活动服务商业,以及城市城际旅行路线。组织内部计划将其应用于:
      • 以多种语言的方式创建一个门户网站,让游客可以搜索景点、最近将举行的活动和其他相关服务;
      • 在季节、国籍等多个维度深入剖析旅游人口统计数据
      • 分析旅客对景点和活动的热爱程度(情感分析),包括积极评价、对活动和服务的投诉摘要、犯罪报告等;
      • 剖析旅行轨迹:游客访问景点、进行活动的顺序;
      • 相互参考航班和公共汽车的运行轨迹来设计新的旅途规划路线
      • 个性化景点推荐
  5. KG综述文献对比

    • 表格一中呈现了关于KG的三类相关文献——综述、书籍和讲义,并将它们涵盖的主题与本论文进行比较。由图可知有些文献倾向于关注KG的某个特定方面,不同于这些文献,本论文是提供对KG广泛且易于理解的介绍教程。其中一些论文的调研结果提供了比本文更深入的技术细节;在本论文的整个论述过程中,我们将酌情参考这些调查作进一步阅读。

表格一

  • 符号说明:
    • 圈和√:深入讨论;
    • 圈:表示简短讨论;
    • *:表示在arXiv上非正式发布。
  1. 本文结构

    • 第 2 章概述了图数据模型和可用于查询它们的语言
    • 第 3 章描述了KG中模式、标识符和上下文的表示。
    • 第 4 章介绍了知识表示蕴含的演绎形式化表述。
    • 第 5 章描述了提取额外知识归纳技术
    • 第 6 章讨论了利用外部数据源构建丰富知识图谱。
    • 第 7 章列举了可以评估KG质量维度。
    • 第 8 章讨论了用于KG精化的各种技术。
    • 第 9 章讨论发布KG的原则和协议。
    • 第 10 章调研了一些著名的KG及其应用
    • 第 11 章是对KG的总结及其未来的研究方向
    • 附录 A 提供了KG的历史背景过去对KG定义
    • 附录 B 列举了论文正文中所引用的形式化定义
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值