知识图谱入门知识

概念

知识图谱是人工智能技术发展的必然趋势,人工智能要想从感知智能走向认知智能,就需要构建一个满足自然语言处理和理解需求的全方位、高精度的知识库。

知识图谱本质上是一种大规模的语义网络,由实体、属性、关系组成。“实体”是知识图谱中的基本元素,可以是世间万物;“属性”是对实体特征的一种描述;“关系”是两个实体间存在的关联。在知识图谱中,表示实体间关系的基本单位为(实体,关系,实体)三元组,而实体的属性由“属性—值”对来表示,如果将实体与实体的属性也看做是一个关系的话,可以将“属性—值”重构为(实体,属性,值)或(实体,关系,实体)三元组,这样属性与关系的表示就有了一致性。一个知识图谱的例子如下:


知识图谱构建技术

(一)命名实体识别

从原始文本中识别有意义的实体或实体指代项,这个过程成为命名实体识别。即在原始文本信息中提取出命名实体,并将其划分到所属的实体类别中。实体类别有很多,包括时间、地点、人物、组织机构等。例如“2022年冬奥会将在北京举办”,其中2022年是时间类别;冬奥会是事件类别;北京是地点类别。由此可见,实体命名识别是自然语言处理的基础。

研究进展:

1、基于字典和规则的方法:

在早期进行命名实体识别时,首先采用了人工方法,依据数据集特征,构建起特殊词典,包括指示词、方位词、中心词、标点符号等,然后由领域专家构建特定的规则模板,最后将二者结合起来,对数据集进行匹配以提取命名实体。

2、基于传统机器学习的方法:

在传统机器学习中,命名实体识别被认为是一种序列标注问题。所谓序列标注问题,就是对于一组一维的输入序列,对其中每个元素打上标签集合中的标签,本质上是对序列中每个元素根据上下文进行分类。在命名实体识别上,隐马尔可夫模型(HMM)、最大熵(ME)、最大熵马尔可夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF)等传统机器学习方法效果良好。

3、基于深度学习的方法:

随着深度学习的不断发展,命名实体识别的研究逐渐转向了深度神经网络,这项技术几乎不需要特诊工程和领域知识。LSTM、GRU等深度学习技术具备从数据中自动学习知识的能力,都可以很好的识别新实体。

研究难点:

1、领域命名实体识别的局限性

命名实体识别往往具有领域局限性,很难构建起通用性的命名实体识别模型,在新闻领域的实体命名识别技术很难迁移到例如医疗、军事等领域中。一是由于不同的领域,其数据集的特征有很大的差别,如中医中的证候、药方、阴阳五行等特征在新闻中并不适用。二是由于许多领域没有成规模的标注数据集,导致模型的训练很难直接展开。在解决方法上,可以采用无监督学习、半监督学习等方法实现数据资源的自动补齐,也可以使用迁移学习来跨越领域的隔阂。

2、命名实体语义表达的多样性和歧义性

一个命名实体在不同的语境或不同的领域中,所表达的语义很可能是不同的,其语义丰富性也是不同的。例如在东西方两种不同的文化背景下,家庭这一概念就具有不同的语义深度,这是实体命名识别需要解决的根本问题。针对这一问题,我们需要充分的利用上下文语境,深度挖掘其中的语义关系,由此来更好地实现实体命名识别。

3、命名实体的复杂性和开放性

命名实体的复杂性是指在实际数据中,一个命名实体的类别可能是多样的,例如“李宁”,既是一位运动员,也是一个运动品牌,我们需要将将命名实体分配到更加具体的类别中。命名实体的开放性是指,该实体处在不断的变化中,会随着时间的迁移发生各种变化,甚至消亡。命名实体的复杂性和开放性给命名实体识别带来了巨大的挑战,也是需要解决的关键问题之一。

(二)关系抽取

关系抽取是知识图谱构建过程中的关键环节,它可以提取并判定文本中两个实体间所存在的关联关系。通过关系抽取,我们可以从无结构的文本中提取出统一格式的实体关系,形成有结构的关系数据,方便处理海量的自然语言文本数据。例如:“哈尔滨工业大学校长王树国荣获法国荣誉勋章”这句话中存在两个实体关系,一是(王树国,哈尔滨工业大学,校长),二是(王树国,法国荣誉勋章,荣获)。

关系抽取的任务分类:

1、如果给定了关系集合,即已知了训练集中存在的所有实体关系,那么关系抽取可看作为关系分类问题,就是把一个实体对划分到他们所属的关系中。

2、如果没有预先给定关系集合,那么此时就是开放关系抽取问题,直接从文本中提取出结构化的实体关系。

关系抽取的研究难点:

1、一些实体关系的表达较为隐晦。例如(詹姆斯,球员,湖人),“湖人签下詹姆斯”。

2、一些实体关系的表达较为多样化,例如(詹姆斯,球员,湖人),“詹姆斯加盟湖人”,“詹姆斯将为湖人效力”。

3、高质量数据库的缺乏,人工标注的成本大。

关系抽取的方法分类:

1、对于关系分类问题,一般有基于规则的分类方法、监督学习方法、半监督学习方法、远程监督学习方法等。

(1)基于规则的分类方法

早期的关系抽取方法,主要是人工构造关系和规则,然后去匹配文本,实现关系抽取。首先要人工编写文本的词汇或句法模式,然后再去匹配文本,识别其中存在的模式,完成实体关系的分类。例如“Jobs is the new CEO of Apple in 1976”这句话中,我们人工构建一个模式:“is the new CEO of”,然后再用它去匹配另一句话:“Mayer is the new CEO of Yahoo!”,从而提取出新的实体对及关系:(Mayer,Yahoo)。

这种方法的优点就是识别的精准度较高,而且可以针对某一领域定制。缺点就是人工标注的代价较大,且往往会导致低召回率。

(2)监督学习方法

主流的方法是将关系实例转换成高维空间中的特征向量,并用这些特征来训练分类模型,最后使用分类模型对文本中的实体关系进行分类,从而抽取出实体关系。其核心问题是有效的特征提取,包括语法、句法、语义、上下文信息、背景知识等。基于特征向量的抽取方法会显式地构造特征向量,一般流程如下:

        ①、根据文本信息选择合适的特征。

        ②、根据特征向量重要程度来对其赋予不同的权重。

        ③、选择合适的模型来对特征向量进行训练,得到最终的关系抽取模型。

基于核函数的方法会隐式地计算特征向量的内积,避免了构造大规模的特征向量。这种方法在输入句法结构树后,以语料本身的结构信息为基础,用核函数来计算两个关系实例之间的结构相似度。基于核函数的方法关键在于得到计算两个关系实例结构相似度的核函数,一般流程如下:

        ①、合理选择解析结构,隐式地计算特征向量的内积。

        ②、选择合适的核函数来计算两个关系实例的结构相似度。

        ③、充分利用各种特征,提高关系抽取任务的分类精度。

有监督的学习方法在关系抽取中可以得到不错的效果,但是由于已标注数据集的缺乏,必须进行大量的数据预处理工作,非常耗费人力,而且无法自动地进行关系抽取和关系类别的扩充。

(3)半监督学习方法

为了解决监督学习需要大量人工标注工作的问题,半监督方法有效地减少了对数据集的依赖和人工参与,实现了关系抽取的自我扩展功能。在半监督学习中被广泛运用的方法为Bootstraping,其基本思想为:首先为语料库人工构建一些优质的模式或关系,然后为每个关系都标注少量的种子实体对,基于这些实体对,在语料库中寻找与其相关的所有句子,从这些句子中提取出表达关系的模式,然后根据新的模式增加新的种子对,最后不断迭代产生更多的种子模式和种子实体对。一般流程如下:

        ①、基于种子实体对抽取对其的句子集合,即筛选出所有包含种子实体对的句子。

        ②、对筛选出的句子集合进行模式的挖掘,每个句子中对种子实体对关系的表述可能都不相同,要对每种模式进行表示。

        ③、对挖掘出的模式进行聚类,选择聚类中心的模式作为新的种子模式。

        ④、基于发现的新模式唉抽取更多实体对。

(4)远程监督学习方法

远程监督学习方法的一个基本假设是:某一个实体对在知识库中存在某种关系,那么所有包含该实体对的句子都会按某种形式来表达这个关系。远程监督可以从大规模语料库中迅速提取出大量的关系实体对来构建数据集,并使用这个数据集来提取文本特征、训练分类模型。但远程监督随便可以使用大量未标记的数据,但在构造数据集过程中,会产生大量的错标数据,且由于自然语言处理本身会产生一定的误差,这样就造成了误差的传播。

在构建好数据集之后就可以通过一些传统的方法或者深度学习方法,来提取文本特征、训练分类模型。例如卷积神经网络(CNN)、注意力机制等。

2、开放关系抽取

开放关系抽取可以避免人工标注数据的麻烦,在当前互联网语料越来越丰富、实体关系越来越复杂的时代下,开放关系抽取可以实现跨领域、可移植的关系抽取。开放关系抽取的一般步骤为:

        ①、深层解析小规模语料库,提取出实体关系三元组,利用朴素贝叶斯模型来训练已标注可信或不可信的关系三元组构建关系表示模型。

        ②、利用关系抽取模型并输入句法、语序等特征,采用训练好的分类模型来对大量网络文献进行关系抽取,并形成候选关系三元组。

        ③、合并候选关系三元组,通过统计的方法计算每个三元组的可信度,并建立索引。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值