[暑期实训] 任务记录 2021-06-29


摘要

  1. 了解知识图谱的构建过程
  2. 掌握相关技术的发展情况
  3. 查找相关模型demo

KG构建过程

  1. 数据获取

通过爬虫等技术从互联网上获取;直接使用现有的数据集。

  • 输入:网页或其他数据来演
  • 输出:符合特定格式的原始数据

  1. 知识获取

将原始数据处理为知识,包括实体、实体的属性值、实体的关系,其中实体的关系为 ( 实 体 S , 关 系 R , 实 体 T ) (实体S, 关系R, 实体T) (S,R,T)三元组,以上统称为结构化的知识。

  • 输入:原始数据
  • 输出:结构化的数据——实体、实体属性、实体关系

  1. 知识融合

实体消歧和实体对齐,将相关领域的知识进行融合,即识别多个实体实际上为同一实体,或多个关系实际上为同一关系。

  • 输入:结构化的数据
  • 输出:融合后的数据

  1. 知识服务

展示图谱,并提供基本的交互操作


  1. 应用

基于知识图谱提供其他应用

本次实训中,只需完成前四步,其中,算法方面只需集中关心第2、3步,即知识的抽取和融合。


算法

该部分内容参考自:https://zhuanlan.zhihu.com/p/135437344

将KG定义为 G = { E , R , F } {G = \{ E, R, F \}} G={E,R,F},其中 E , R , F {E, R, F} E,R,F分别表示实体、关系、事实(facts)的集合。
事实定义为三元组 ( h , r , t ) ∈ F {(h, r, t) \in F} (h,r,t)F
h : h e a d h:head hhead
r : r e l a t i o n r:relation rrelation
t : t a i l t:tail ttail


知识表征学习 KRL

表征学习的主要任务为:学习实体和关系的低维分布式表征。

表征空间

  • Point-Wise空间

    • NTN(2013):通过一个双线性张量神经层建模多维的实体,head和tail之间的关系交互通过一个张量[来捕获。
    • TransE(2013):使用 d {d} d维向量空间表征实体和关系,转换原则为 h + r ≈ t {h + r \approx t} h+rt
    • TransH(2014):线性变换模型。
    • TransR(2015):用不同的表征空间分别表示实体和关系,使用映射矩阵将实体特征映射到关系空间。

  • 复数向量空间

    • ComplEx(2016):引入附属向量空间,可捕获对称和非对称关系。Hermitian点积用来组合关系、head以及tail的共轭。
    • RotatE(2019):借助欧拉公式的思想,将关系视为head实体到tail实体的旋转,即 t = h ∘ r {t = h \circ r} t=hr,其中 ∘ {\circ} 表示hadmard积。
    • QuatE(2019):将传统的复数空间扩展到超复数空间。

  • 高斯分布

    • KG2E(2015):引入高斯分布处理确定和不确定的实体和关系。论文将实体和关系embeded到多维高斯分布。
    • TransG(2016):使用高斯分布表征实体,将关系embedding看做高斯分布的混合。

  • 流形和群

    • ManifoldE(2016):将point-wise embedding的方法扩展到manifold-based方法中。
    • TorusE(2018):通过压缩的Lie group n维圆环空间的embedding,解决TransE正则化的问题。
    • DihEdral(2019):通过二平面对称群保存2维的多边特征。

打分函数
用于衡量facts的合理性

  • 基于距离
    通过计算两个实体之间的距离衡量facts的合理性, h + r ≈ t {h + r \approx t} h+rt

    • Structural Embedding(2011):使用两个映射矩阵和 L 1 {L_{1}} L1距离学习结构化embedding f r ( h , t ) = ∥ M r , 1 h − M r , 2 t ∥ L 1 {f_{r}(h,t) = {\lVert{M_{r,1}h - M_{r,2}t}\rVert}_{L_{1}}} fr(h,t)=Mr,1hMr,2tL1
    • TransE(2013):假设 h + r {h + r} h+r接近 t {t} t,打分函数可以定义为 L 1 {L_1} L1或者 L 2 {L_2} L2范数 f r ( h , t ) = ∥ h + r − t ∥ L 1 / L 2 {f_{r}(h,t) = {\lVert{h + r - t}\rVert}_{L_{1}/L_{2}}} fr(h,t)=h+rtL1/L2
    • TransH
    • TransR
    • TransD
    • TransA
    • TransF
    • ITransF
    • TransAt
    • TransMS

  • 基于语义相似度
    通过语义匹配得分衡量facts的合理性, h T M r ≈ t {h^{T}M_{r} \approx t} hTMrt

    • SME
    • DistMult
    • HolE
    • HolEx
    • ANALOGY
    • CrossE

编码模型

  • 线性/双线性模型
  • 因子分解模型
  • 神经网络模型
  • CNN
  • RNN
  • Transformers
  • GNNs

辅助信息


KRL步骤

  1. 选择表征空间
  2. 选择打分函数
  3. 选择编码模型
  4. 是否使用辅助信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值