实体对齐 算法_知识图谱—实体对齐

d5aad40b124bdb495c302cea8825319c.png

图谱构建流程

导读:

1.知识提取

从原始数据语料中自动识别出命名实体。实体是知识图谱中最基本的元素。

2.知识表示(一)

介绍了知识表示学习的常见的代表模型:距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型。

3.知识表示(二)

介绍翻译模型(Trans模型),TransH模型、TransR模型、TransD模型、TranSpare模型、TransA模型、TransG模型、KG2E模型、


本篇文章,我们介绍实体对齐的相关内容,包括实体消歧和共指消歧。、

1.实体消歧

含义:实体消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。

例子:

450ab60bcfacb63baf09426ba6dfd6f7.png
“苹果”实体描述

“我的手机是苹果”和"我喜欢吃苹果"这两个句子中的“苹果”代表的含义是不一样的。前者代表是手机、后者代表是水果。

具体实现:

“美国一家高科技公司,经典的产品有Iphone手机”转换为向量 f5e2c6a0-604e-eb11-8da9-e4434bdf6706.svg ;“水果的一种,一般产自于…”转换为向量 f7e2c6a0-604e-eb11-8da9-e4434bdf6706.svg ;然后将“今天苹果发布了新的手机”中“苹果”的上下文“今天,发布了新的手机”转换为向量 f8e2c6a0-604e-eb11-8da9-e4434bdf6706.svg ;我们只要将 f8e2c6a0-604e-eb11-8da9-e4434bdf6706.svg 分别与 f5e2c6a0-604e-eb11-8da9-e4434bdf6706.svg 和 f7e2c6a0-604e-eb11-8da9-e4434bdf6706.svg 计算相似度,然后对比 ffe2c6a0-604e-eb11-8da9-e4434bdf6706.svg 和 00e3c6a0-604e-eb11-8da9-e4434bdf6706.svg ;相似度高的,我们则将其看作“苹果”的真实语义。

2.共指消歧

共指消解,也叫指代消解。很难因为自然语言充满歧义,因此必须使用多种信号和知识来消除歧义。需要基于对周围世界的了解才能明白这些指代,而这种知识很难编码到计算机中。举个例子:

乔布斯改变了我们听音乐、购买音乐、打电话、使用手机、看电影等各方面的体验。当他去世时,奥巴马称他为最伟大的创新者。

上面这句话中的他指代的是乔布斯。

乔布斯改变了我们听音乐、购买音乐、打电话、使用手机、看电影等各方面的体验。当他听到这个消息,奥巴马致电慰问他的妻子。

那这段话中的他指代的是奥巴马。

指代消解主要有两个步骤。第一步是指代识别(mention detection),即找出句子中所有的指代,这一步相对简单。第二步才是进行真正的指代消解(coreference resolution),这一步比较难。

(1)指代识别

指代识别阶段尽量保召回率,保留所有找到的可能是指代的词,都参与后期的指代消解。如果一个指代没有找到它的共同指代(coreference),则说明这个指代是孤立的(singleton mention),有可能是指代识别阶段找到的不是指代的词,直接舍弃。

(2)指代消解

指代消解发展至今,经历了四种不同的方法,分别是Rule-based、Mention pair、Mention Ranking。

Rule-based方法:1976年,Hobbs提出了基于规则的朴素算法,被后人称为Hobbs算法。该方法有9个步骤,包含了很多规则,非常繁琐。Hobbs算法虽然是基于规则的,但在当时取得了不错的效果,现在也常常作为该领域的baseline模型。但是因为该方法是基于规则的,有很多指代消解没法解决。

Mention pair方法:该方法把指代消解问题转化为一个二分类问题。从左到右遍历句子,每找到一个指代,就把它和前面找到的每个指代作为一个pair,问分类器这个pair是否指代同一个实体,如果是的话,就把它们连起来。二分类的损失就是交叉熵。很简单的一个模型。

Mention Ranking:每个指代同时和前面所有指代打分,用softmax归一化,找出概率最大的先行词,添加一条连边。注意需要添加一个NA节点,因为有的指代可能第一次出现,前面没有先行词,或者这个指代根本就不是一个真正的指代。

前面的内容都是假设我们计算好了任意两个指代是coreference的概率,那么,如何来计算这个概率呢?主要有三种方法,分别是Non-neural statistical classifier、Simple neural network和More advanced model using LSTMs, attention。

A. Non-neural statistical classifier。统计机器学习方法,抽取每个指代的各种特征,然后用机器学习分类器来计算两个指代是coreference的概率。这里面的特征包括人称、性别一致性,语义相容性等等。

B. Neural Coref Model。输入是候选先行词和当前指代词的词向量,还需要加入一些额外的特征(Additional Feature),也就是上面统计机器学习方法里用到的一些特征。中间是FFNN,即全连接网络,最后输出两个指代是coreference的概率。

C. End-to-end Model。end2end模型是目前指代消解的SOTA模型,它把指代识别和指代消解两个任务融合到一起,用一个模型来解决。

第1章 基础知识   1.1 机器语言   1.2 汇编语言的产生   1.3 汇编语言的组成   1.4 存储器   1.5 指令和数据   1.6 存储单元   1.7 CPU对存储器的读写   1.8 地址总线   1.9 数据总线   1.10 控制总线   1.11 内存地址空间(概述)   1.12 主板   1.13 接口卡   1.14 各类存储器芯片   1.15 内存地址空间  第2章 寄存器  2.1 通用寄存器         2.2 字在寄存器中的存储     2.3 几条汇编指令        2.4 物理地址          2.5 16位结构的CPU       2.6 8086cPu给出物理地址的方法 2.7 “段地址xl6+偏移地址=物理地址”的本质含义         2.8 段的概念          2.9 段寄存器          2.10 CS和IP          2.11 修改CS、IP的指令     2.12 代码段          实验1 查看CPU和内存,用机器指令和汇编指令编程    第3章 寄存器(内存访问)    3.1 内存中字的存储      3.2 DS 31:1[address]         3.3 字的传送         3.4 ITIOV、add、sub指令    3.5 数据段          3.6 栈                3.7 CPU提供的栈机制     3.8 栈顶超界的问题       3.9 puSh、pop指令       3.10 栈段           实验2 用机器指令和汇编指令编程  第4章 第一个程序          4.1 一个源程序从写出到执行的过程  4.2 源程序             4.3 编辑源程序           4.4 编译              4.5 连接              4.6 以简化的方式进行编译和连接   4.7 1.exe的执行           4.8 谁将可执行文件中的程序装载进入内存并使它运行?        4.9 程序执行过程的跟踪       实验3 编程、编译、连接、跟踪   第5章 【BX】和loop指令       5.1 【BX】              5.2 Loop指令            5.3 在Debu9中跟踪用loop指令实现酮循环程序            5.4 Debu9和汇编编译器masm对指令的不同处理         5.5 loop和【bx】的联合应用     …… 第3章 寄存器(内存访问)  第4章 第一个程序  第5章 [BX]和loop指令  第6章 包含多个段的程序  第7章 更灵活的定位内存地址的方法  第8章 数据处理的两个基本问题  第9章 转移指令的原理  第10章 CALL和RET指令  第11章 标志寄存器  第12章 内中断  第13章 int指令  第14章 端口  第15章 外中断  第16章 直接定址表  第17章 使用BIOS进行键盘输入和磁盘读写  综合研究  附注
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值