知识图谱笔记

1. 定义


知识图谱技术是指在建立知识图谱中使用的技术, 是融合认知计算、 知识表示与推理、 信息检索与抽取、自然语言处理与语义Web、 数据挖掘与机器学习等技术的交叉研究。
具体地, 知识图谱技术包括知识表示、 知识图谱构建和知识图谱
应用三方面的研究内容

  • 知识表示研究客观世界知识的建模,以方便机器识别和理解, 既要考虑知识的表示与存储,又要考虑知识的使用和计算。
  • 知识图谱构建解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识, 主要研究使用何种数据和方法抽取何种知识;
  • 知识图谱应用主要研究如何利用知识图谱建立基于知识的智能服务系统, 更好地解决实际应用问题。

2. 知识表示


知识表示技术可以分成符号主义和联结主义。符号主义的基础是纽威尔和西蒙提出的物理符号系统假设,认为人类认知和思维的基本单元是符号, 而认知过程就是在符号表示上的运算。联结主义认为, 人的认知就是相互联系的具有一定活性值的神经单元所形成网络的整体活动, 知识信息不存在于特定的点, 而是在神经网络的联结或者权重中。具体的表示方法可以分为三类。

  • 基于符号逻辑的知识表示
    基于符号逻辑进行知识表示和推理, 主要包括逻辑表示法( 如一阶逻辑、 描述逻辑) 、 产生式表示法和框架表示等。大数据时代不适用。
  • 万维网内容的知识表示
    互联网信息的描述主要包括基于标签的半结构置标语言 XML、 基于万维网资源语义元数据描述框架 R D F 和基于描述逻辑的本体描述语言 OWL 等。XML通过为内容置标, 便于数据交换;R D F通过三元组( 主体, 谓词, 客体) 描述互联网资源之间的语义关系;OWL构建在 RDF之上, 是具有更强表达及解释能力的语言。这些技术使我们可以将机器理解和处理的语义信息表示在万维网上, 当前在工业界大规模应用的是基于R D F三元组的表示方法。
  • 表示学习
    表示学习的目标是通过机器学习或深度学习, 将研究对象的语义信息表示为稠密低维的实值向量。对不同粒度知识单元进行隐式的向量化表示, 以支持大数据环境下知识的快速计算, 主要包括张量重构和势能函数的方法。张量重构综合整个知识库的信息, 但在大数据环境下张量维度很高, 重构的计算量较大。势能函数方法认为, 关系是头实体到尾实体一种平移变换,Bordes等人提出的TransExual模型是平移模型的代表。相比传统方法,知识表示学习方法可以显著提升计算效率, 有效缓解数据稀疏性, 更容易实现不同来源的异质信息融合。

3. 知识图谱构建技术


知识图谱中知识的来源有两类, 一类是互联网上分布、 异构的海量资源; 一类是已有的结构化异构语义资源。从第一类资源中构建知识图谱的方法根据获取知识的类型分为概念层次学习、 事实学习等, 而针对第二类资源进行的工作是异构资源的语义集成。

  • 3.1 概念层次学习
    概念层次学习就是通过合理的技术, 抽取知识表示中的概念, 并确定其上下位关系。概念层次学习多采用基于启发式规则的方法, 其基本思路是根据上下位概念的陈述模式, 从大规模资源中找出可能具有上下位关系的概念对, 并对上下位关系进行归纳。另一类是基于统计的概念层次学习方法,假设相同概念出现的上下文也相似, 利用词语或实体分布的相似性, 通过定义计算特征学习概率模型来得到概念结构。

  • 3.2 事实学习
    知识图谱中事实以三元组的形式表示, 事实数量决定了知识图谱的丰富程度。按照知识图谱构建时采用的机器学习方法可以分为有监督、 半监督及无监督的知识图谱构建方法。

  • 有监督的事实知识获取方法需要有已标注文档作为训练集, 可以分为基于规则学习、 基于分类标注和基于序列标注方法等。

    • 基于规则的语义标注方法从带语义标注的语料中自动学习标注规则,利用规则对数据资源进行标注,适合比较规范资源上的知识获取;
    • 基于分类的知识获取方法将知识获取转化为分类问题, 根据确定的标注特征从标注语料中学习标注模型;
    • 基于序列模式标注的方法同时考虑多个语义标注之间的关系,可以提高标注的准确率;
    • 另外还包括其他( 如考虑层次关系的) 语义标注的方法等
  • 半监督的知识获取方法主要包括自扩展方法和弱监督方法。

    • 自扩展方法需要初始的种子实体对,根据这些种子实体对, 发现新的语义模板, 再对语料进行迭代抽取以发现新的实体对, 其主要问题是语义漂移;
    • 弱监督方法使用知识库中的关系启发式地标注文本, 其主要问题在于训练实例中本身带有大量噪音。
  • 无监督的知识获取方法主要是开放信息抽取, 使用自然语言处理方法, 无须预先给定要抽取的关系类别, 自动将自然语言句子转换为命题, 这种方法在处理复杂句子时效果会受到影响。代表性的系统有之前提到的 KnowItAll, 该系统具有领域无关特性, 可以使用自扩展的方式从大规模互联网信息中抽取语义信息,同时会自动地对抽取信息进行评估。

  • 3.3 语义集成
    知识库间的异构性阻碍了知识在整个语义网上的共享。语义集成, 就是在异构知识库之间, 发现实体间的等价关系, 从而实现知识共享。由于知识库多以本体的形式描述, 因此语义集成中的主要环节是本体映射。主要方法有:

    • 基于文本的方法主要利用本体中实体的文本信息, 例如实体的标签和摘要。通过计算两个实体字符串之间的相似度来确定实体之间是否具有匹配关系。
    • 基于结构的方法主要利用本体的图结构信息对本体进行匹配。其中较为代表性的方法有SimRank和相似度传播,这些方法利用本体的图结构, 对实体间的相似度进行传播, 从而提高对齐的效果。
    • 基于背景知识的方法一般使用DBpedia和WordNet等已有的大规模领域无关知识库作为背景知识来提供匹配效果。
    • 基于机器学习的方法将本体匹配问题视为机器学习中的分类或优化问题,从而采取机器学习方法获得匹配结果。例如,Niepert等人将本体匹配转换为马尔可夫逻辑网络问题,将本体中的各种信息转化为各种约束条件,并求出最优解。

参考

[1] 知识图谱研究综述,李涓子, 侯磊

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值