UCAS-AI学院-知识图谱专项课-第6讲-课程笔记
实体消歧
概述
- 实体消歧
- 命名实体的歧义:一个实体指称项可以对应到多个真实世界实体
- 实体消歧:确定一个实体指称项所指向的真实世界实体
- 对知识图谱:将获得的知识三元组挂载到对应的实体上
- 对问答系统:从知识库中获得正确实体对应的
- 实体消歧的来源
- 自然语言的多样性(同义不同表)
- Variability
- 名字的变体
- 自然语言的歧义性(同表不同义)
- Ambiguity
- 名字的歧义
- 自然语言的多样性(同义不同表)
- 普通词的歧义
- 一词多义
- 一义多词
- 词义排歧 vs. 实体消歧
- 相同点
- 解决词汇歧义的问题
- 不同点
- 前者义项比较固定,可由词典枚举;后者义项无法列举
- 后者的义项数目比前者多很多
- 后者的场景比前者丰富
- 后者可利用特征更加丰富
- 相同点
- 词义排歧的方法:David Yarowsky算法
- one sense per collocation
- 相邻此可以提供判断目标歧义词语义的先缩
- one sense per discourse
- 给定文本,目标词语义有很强一致性
- 目标词上下文缺少组后局部信息用于消歧是,可利用每篇文本一个语义的约束弥补
- one sense per collocation
- 实体消歧分类
- 基于无监督聚类的实体消歧
- 所有实体指称项按其指向的目标实体进行聚类
- 每一个实体指称项对应到一个单独类别
- 基于实体链接的实体消歧
- 将实体指称项与目标实体列表中的对应实体进行链接实现消歧
- 基于无监督聚类的实体消歧
基于聚类的实体消歧
基本方法
- 基本思路
- 指向相同的实体指称项具有相似的上下文
- 利用聚类算法进行消歧
- 核心问题:选择特征对指称项表示
- 词袋模型
- 利用实体指称项上下文中的词来构造向量
- 利用向量空间模型来计算两个实体指称项的相思度,进行聚类
- 语义特征
- 动机:词袋模型没有考虑词的语义信息
- 方法:利用SVD分解挖掘词的语义信息
- 利用词袋模型和浅层语义特征,共同表示指称项,利用余弦相似度计算两个指称项的相似度
- 社会化网络
- 不同的人具有不同的社会关系
- 网页实体消歧,利用社会化关联信息表现出的网页链接特征,对其进行聚类
- Wikipedia
- 相关实体具有超链接关系
- 连接关系反映了条目之间的语义相关度
- s r ( a , b ) = 1 − log ( max ( ∣ A ∣ , ∣ B ∣ ) ) − log ( ∣ A ∣ ∩ ∣ B ∣ ) log ( ∣ W ∣ ) − log ( min ( ∣ A ∣ , ∣ B ∣ ) ) sr(a,b) = 1 - \frac {\log(\max (|A|,|B|)) - \log(|A| \cap |B|)}{\log (|W|) - \log(\min(|A|, |B|))} sr(a,b)=1−log(∣W∣)−log(min(∣A∣,∣B∣))log(max(∣A∣,∣B∣))−log(∣A∣∩∣B∣)
- 相关度越大越相关
- 使用实体上下文的维基条目对实体进行向量表示
- 利用维基条目之间的相关度计算指称项之间的相似度(双向结果加权求和)
- 多源异构知识
- Wikipedia覆盖度有限
- 挖掘和集成多元异构知识可以提高实体消歧的性能
- 表示框架:结构化语义关联图
- 概念抽取
- 等同概念识别
- 概念链接(是否存在语义关系)
- 多源异构结构化知识挖掘:语义图中的知识以两种方式存在
- 节点:结构化语义知识,建模了所有与其表示的实体显式相关的实体的语义
- 边:显示语义知识
- 路径:隐式语义知识
- 隐式语义关联计算
- 如果一个节点的邻居节点与另一节点存在语义关联,那么该节点也于另一节点存在语义关联
- 结构化语义关联:
S
i
j
=
λ
∑
l
∈
N
i
A
i
j
d
i
S
l
j
+
μ
A
i
j
S_{ij} = \lambda \sum_{l \in N_i} \frac {A_{ij}}{d_i} S_{lj} + \mu A_{ij}
Sij=λ∑l∈NidiAijSlj+μAij
- 前者为邻居集结点传递内容,后者为显式语义关联
- A A A为邻接矩阵, d d d为节点的度
评测
- WePS
- 网络人名搜索评测
- 给定王爷集合,进行消歧聚类
- 评测指标
- 纯度:聚类结果中每个类别的平均准确率(簇
C
i
C_i
Ci分类到
L
j
L_j
Lj的准确率)
- Purity = ∑ i ∣ C i ∣ n max Precision ( C i , L j ) \operatorname{Purity} = \sum_i \frac {|C_i|}{n} \max \operatorname{Precision}(C_i, L_j) Purity=∑in∣Ci∣maxPrecision(Ci,Lj)
- 逆纯度:聚类结果中每个类被的平均召回率(类别
L
j
L_j
Lj指派到
C
i
C_i
Ci的准确率)
- InversePurity = ∑ i ∣ L j ∣ n max Precision ( L j , C i ) \operatorname{InversePurity} = \sum_i \frac {|L_j|}{n} \max \operatorname{Precision}(L_j, C_i) InversePurity=∑in∣Lj∣maxPrecision(Lj,Ci)
- F-值: 1 α 1 Purity + ( 1 − α ) 1 InversePurity \frac {1}{\alpha \frac {1}{\operatorname{Purity}} + (1 - \alpha) \frac {1}{\operatorname{InversePurity}}} αPurity1+(1−α)InversePurity11
- 纯度:聚类结果中每个类别的平均准确率(簇
C
i
C_i
Ci分类到
L
j
L_j
Lj的准确率)
- 挑战
- 消歧目标难以确定
- 缺乏实体的显式表示
基于实体链接的实体消歧
任务描述
- 给定实体指称项和他所在的文本,将其链接到给定的知识库相应实体上
- 输入
- 目标实体知识库(Wikipedia、Yelp、IMDB)
- 待消歧实体指称项的上下文信息
- 输出
- 文本中实体指称项映射到的知识库中的实体
基本方法
- 主要步骤
- 候选实体发现:给定实体指称项,发现候选实体
- 候选实体链接:根据相似度选择实体
- 无链接实体的聚类
- 候选实体发现
- 利用Wikipedia信息(超链接锚文本、消歧页面、重定向页面)
- 利用上下文信息
- 候选实体链接
- 相似度排序(先验知识、局部实体链接、协同实体链接)
- 可分别使用,也可联合使用
- 利用先验知识做初始排序
- 利用实体概率进行粗筛
- P ( e n t i t y ∣ m e n t i o n ) = count ( m e n t i o n → e n t t y ) ∑ e n t i t y ′ ∈ W count ( m e n t i o n → e n t i t y ′ ) P(entity | mention) = \frac {\operatorname{count}(mention \to entty)}{\sum_{entity^\prime \in W} \operatorname{count}(mention \to entity^\prime)} P(entity∣mention)=∑entity′∈Wcount(mention→entity′)count(mention→entty)
- 局部实体链接
- 传统特征方法
- BoW:指称项上下文和候选实体上下文表示成BoW向量,计算相似度(余弦相似度),去最大相似度实体链接
- 实体流行度:背景知识——流行度 P ( e ) P(e) P(e)、名称知识 P ( s ∣ e ) P(s|e) P(s∣e)、上下文知识 P ( c ∣ e ) P(c|e) P(c∣e)
- 类别特征:文本可能很短,加入与候选实体类别的共现特征(SVM、Wikipedia超链接)
- 表示学习方法
- 卷积神经网络模型
- 指称项多粒度(词、句子、篇章),实体多粒度(词(标题)、篇章)
- 方法
- 卷积神经网络得到实体指称项表示、上下文表示、篇章表示
- 卷积神经网络得到实体标题表示和篇章表示
- 两两比较得到六维相似度,与传统特征拼接,由FC网络得到相似度
- 按照最高相似度链接实体
- 预训练实体向量表示
- 提前训练实体向量
- 上下文中不同词对于消歧具有不同的重要性
- word2vec训练实体向量(速度快、可增量更新)
- 局部注意力机制去除上下文停用词
- 卷积神经网络模型
- 传统特征方法
- 协同实体链接
- 所有需要链接的实体协同实现消歧
- 考虑目标实体之间的全局语义相似度
- 增加了一个全局项(协同策略),综合考虑目标实体之间的一致性
- 全局项计算
- 基于图的方法:Referent Graph (指称项与实体之间的关系VSM + 实体间的语义相关度),初始得分——传播转移——最高得分
- 基于CRF的方法:最大化似然函数 + 环路信念传播
- 基于Pair-Linking的方法:每一个连接到的候选实体只需要和文档中一个其他实体相一致
其他实体链接任务
- 跨语言实体链接
- 一种语言的实体指称项连接到另一个语言的知识库中
- 现有信息不完备——候选生成很难、相似度计算很难
- 翻译造成错误传递——利用双语隐含主题模型将实体指称项与候选实体映射到同一主题空间中
- 很难映射到同一空间——Skip-gram训练尸体向量和词向量 + 超链接信息替换为实体完成训练 + 基于文章的跳转关系CCA映射到同一个空间
- 无跳转——音译模型
- 实体列表中的实体链接
- 输入为网页实体列表,没有列表周围的文本来帮助实体指称项排歧
- 列表中实体应该拥有同一类型,语义相似而非相关
- 假设:列表中实体疏于同一类型
- 候选实体先验概率较高
- 候选实体的类型与同一个列表中其他列表项的对应实体的类型一致(语义相似)
- 建模语义相似的方法
- 基于类型层次结构的相似性
- 实体上下文分布相似性
- 利用最大间隔方法自动学习特征的权值,为每个候选实体定义链接质量
- 利用迭代替换算法对实体列表中所有相对应的实体进行联合优化
- 社交数据中的实体链接
- 社交媒体:用户多、数量大
- Tweet文本:字数限制、噪声大、实时性强
- 挑战:无法利用上下文计算与知识库中实体的相似度、实体数量少无法利用协同链接
- 用户特性:同一个用户,关注兴趣点相对固定
- 假设
- 每个用户都有一些感兴趣的话题,每个话题覆盖一些实体
- 一个实体被一个用户的某条Tweet提及,那么这个用户可能对实体感兴趣
- 一个实体和用户兴趣实体主题高度相关,那么用户可能对这个实体也感兴趣
- 方法:基于图的用户兴趣传播问题
- 节点表示实体,边表示相互依赖的强度(测度TR)
- 节点构成
- 实体先验概率
- 实体描述页面与实体指称项上下文之间的tf-idf相似度
- 主题一致程度
- 时空特性:时间戳,候选实体的先验信息随着时间信息发生变化
- 方法:引入 P ( e ∣ t , l ) ∼ M u l t i ( θ t l ) P(e|t,l) \sim Multi(\theta_{tl}) P(e∣t,l)∼Multi(θtl)引入时间信息
- 链接到受限知识库:Yelp
- 实体信息匮乏
- 但是存在大量的社交信息信息
- 方法:提取了传统实体链接特征、社交特征和地点特征
实体识别和实体链接联合学习
- 分开的问题
- 一个实体被划分成多个短词
- 忽略长的实体指称项
- 方法
- 先验识别实体指称项,与真实实体表示做相似度打分,自动筛选可能性最大的实体指称项和最可能的链接结果
实体链接的数据集和评测
- 数据集
- AIDA
- WNED-自动标注
- TAC KBP
- 评测指标
- Entity Linking
- 微观准确率,以指称项为单位计算准确率
- 宏观准确率,以实体为单位计算准确率
- Entity Discovery and Linking
- 基于集合的评价角度:实体识别和链接视为序列标注任务
- 基于聚类的评价角度:实体识别和链接视为跨文档的共指任务
- Entity Linking
实体链接面临的挑战
- 缩写与别名的难点:候选生成时如何将别名或缩写引入
- 常识知识
- 无链接实体:连接到NIL实体,进而进行实体聚类
- 无链接实体预测
- 候选集合为空集
- 最高置信度实体未达到阈值
- 指称项与最高排名实体联合二分类,为0则归类到NIL
- 直接将NIL作为一个特殊实体进行打分和排序
- 对NIL实体进行聚类,从而人工对其进行标注和扩充
- 无链接实体预测
- 其他领域和多模态的实体链接