知识图谱属性融合_肖仰华教授讲授【知识图谱概念与技术】研讨实录(六)

本文是肖仰华教授关于知识图谱概念与技术研讨的内容摘要,重点讨论了百科图谱构建的意义,包括支撑领域知识图谱构建、机器语言理解及语料自动标注。文中提及百科图谱构建的关键步骤,如数据获取、属性抽取和关系构建,并讨论了数据获取的策略及其优缺点。此外,还深入探讨了知识清洗、关系构建、实体分类以及知识图谱的融合任务,涉及实体对齐、属性对齐和属性值融合等问题。
摘要由CSDN通过智能技术生成

1cc8d250b9cc043f19a46d94112862db.png

文章来源于微信公众号:知识工场(ID:fudankw)

原文链接:请点击

文章仅用于学习交流,如有侵权请联系删除

以下为课程第六章《百科图谱构建》的研讨内容:

1、百科图谱的意义体现在哪些方面?

同学代表性回答:

(1) 支撑领域知识图谱的构建;

(2) 为机器语言理解提供通用知识;

(3) 支撑语料自动标注。

肖仰华老师:百科图谱的根本意义在于让机器具备百科知识的理解能力,语义理解曾经有一个十分重要的观点就是百科观,认为人类所谓的语义理解就是能理解百科知识,因此,将百科知识赋予机器是十分重要的。

2、单源百科图谱构建的关键步骤有哪些?

同学代表性回答:

数据获取,属性抽取,关系构建,概念层级体系构建,实体分类

3、百科数据获取有哪些方法?各有何优缺点?

同学代表性回答:

基于dump数据下载:优点是方便且全面,缺点是不一定提供dump数据。

基于超链接的遍历策略:缺点是不全面,有的页面是孤立的。

基于枚举的遍历策略:优点是可以根据规律爬取,缺点是url不一定具有可枚举性。

肖仰华老师:这一步看上去最简单,但却最为关键,很多团队空有想法,没有数据。数据获取是核心能力,除了第一个方法,第二、第三两个方法,是高手较量的地方,作为平台方,往往不希望别人能轻易获取数据,这里面有很多博弈,其实 ,方法2和方法3可以融合在一起,这里的很多相关技术,由于涉及网络攻防,书中是没有展开介绍的,但这些技术是真正的核心技术,而且paper极少,巧妙使用方法2和方法3是能够几乎爬去你能看到的所有数据的,这里就不展开了。

4、百科页面抽取中有哪些知识清洗的任务?分别举例。

同学代表性回答:

(1)属性对齐,主要解决属性表述不一致。如在表达基础信息时,有的网站用“基本信息”标签,有的网站用”简介“。

(2)数值属性值归一化,主要解决数值属性值格式不统一。如在表达重量的时候,有的网站用”KG“,有的网站用”公斤“。

(3)对象属性值分割,主要解决对象属性的多个属性值合并表示的情况。如在表达一个人的毕业院校时,网站可能把个人的所有毕业院校一起作为属性值,但是我们需要识别出其小学、高中、大学等。

肖仰华老师:这里的很多问题看上去很细小琐碎,但这恰恰就是知识工程技术的特点,比如日期的归一化问题,就很难。而且这个问题你还似乎没什么好办法,只能遇到一个解决一个,我们到现在也没想出什么elegant的统一模型 来解决这个问题,我甚至想做个通用的平台专门解决所有可能的描述不一致问题。

5、关系构建要解决的核心问题是什么?解决这些问题的主要思想是什么?

同学代表性回答:

• 核心问题是将属性值链接到知识图谱中的实体。

• 解决方法分为两类:

1)当属性值存在超链接时:解析超链接对应的URL。

2)当属性值不存在超链接时:建模为分类问题。

肖仰华老师:这个答案挺好,对于第二种情况,其实就是在做实体链接。

6、百科图谱中的实体分类任务输入输出分别是什么?主要方法有哪些?

同学代表性回答:

输入:知识图谱中的实体。

输出:一组预定义的概念集合。

方法:人工方法基于规则的方法基于机器学习的方法。

7、有哪些典型实体分类规则?

同学代表性回答

通用的推理规则,指那些能适用于全部概念的实体分类规则,包括基于等价实体关系和基于概念子类关系的推理规则。

启发式的推理规则,如:(1)基于实体名称的推理:实体名称后缀为“医院”、“大学”的很可能分别属于概念“医院”和“大学”。(2)基于属性的推理:实体包含属性“性别”的,很可能属于概念“人物”。(3)基于属性-值的推理:如果实体包含属性-值对(职业,演员),很可能属于概念“演员”。

肖仰华老师:我是希望大家能给我一些具体的规则,大家要能自己再写一些相应的规则。能否自动学出这些规则,如果大家能提出方法自动学习这些规则,是可以发paper的。

8、基于学习的实体分类有哪些典型的模型与框架?

同学代表性回答:

(1)对于单示例特征表示,该任务可以视为典型的多标签分类问题,所以经典的朴素贝叶斯、逻辑回归、支持向量机和决策树等模型即可解决,典型方法是CUTE。

(2)对于多示例特征表示,主要有两类解决方法。一是分类+融合的方法,首先对每个示例中的实体指代进行分类,之后将所有示例的结果进行融合,得到最终的结果,典型的方法有METIC;二是多示例学习的方法,一次性考虑实体的全部示例信息,得到完整的分类结果。

9、从mention typying 融合entity types的基本模型是什么?约束如何构造?

同学代表性回答:

每个实体(entity)可能出现在多个句子中,每个句子中出现的实体看作这个实体的mention。将实体分类问题分解为 实体mention分类 + 概念融合 两个子问题。

概念融合过程中需要考虑两个约束,一个是概念互斥约束,即一个实体不可能存在属于两个语义互斥的概念,如人物和地点。另一个是概念层次约束,即一个实体不能在不属于一个父概念的情况下却属于它的子概念。

为了将这两个约束放入概念融合模型了,考虑使用整数线性规划模型,x_i 是一个指示变量,x_i = 1表示实体属于概念i,x_1 = 0表示实体不属于概念i。目标函数是使得实体所属概念的概率最大化(但需要大于某个阈值,如0.5),而约束1为概念互斥约束,将其转化为数学表达式为 x1 + x2 <= 1,表示两个概念至多只有1个为1。约束2为概念层次化约束,将其转化为数学表达式为 x1 - x2 <= 0,其中x1是x2的子概念。表示必须x2先为1,x1才能为1。

10、多个知识图谱融合有哪些具体任务?分别是什么含义

同学代表性回答:

包括四个任务。第一个是概念融合,把不同知识图谱的概念给对齐;第二个是实体对齐,把不同知识图谱的实体给对齐;第三个是属性对齐,把不同知识图谱的属性给对齐;第四个是属性值融合,把不同知识图谱中的同一实体的同一属性的属性值进行合并。

11、实体对齐任务中,成对对齐与集体对齐有何差别?

同学代表性回答:

是考虑局部和全局信息的区别。成对对齐就是判断来自不同知识图谱中的两个实体是否等价,只考虑这两个实体之间的信息。匹配速度快,但可能会出现一个知识图谱中的实体和另一个知识图谱中的多个实体匹配的情况。集体对齐会同时考虑整个知识图谱中的信息。速度较慢,但不会出现1对多的情况。

12、解决属性对齐的主要思想是什么?

同学代表性回答:

包括字面相似度(字符串之间的相似度)、语义相似度(同义词字典等)以及统计相似度(s-o pair的overlap程度)。

13、基于异构信息网络实现属性值融合的核心思想是什么?

同学代表性回答:

核心思想有两条,一是每个知识图谱质量取决于其中的所有三元组的平均准确率,二是每条未知三元组的准确率可以用其知识图谱的质量来估计。三是对于单值属性来说,一个实体的一个单值属性只有一个属性值是对的。基于这些思想,可以通过迭代的思路得到最终每个知识图谱的质量以及每条三元组的质量。类似于PageRank的思路,不管初始值如何设置,最终它们终将收敛到一个稳定的值上。


4bea0f74323ee1092cff73dade910cba.png

「华来知识」成立于2017年,孵化于清华大学智能技术与系统国家重点实验室,是一家技术领先的人工智能企业。公司专注于提供新一代人工智能人机交互解决方案,利用自身技术为企业打造由人工智能驱动的知识体系,借此改善人类生活。「华来知识」将持续为企业客户提供优质服务,助力企业在专业领域的人工智能应用,提供完善可靠高效的产品解决方案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值