[暑期实训] 任务记录 2021-06-29

最新推荐文章于 2021-07-29 10:46:57 发布

Marginitor

最新推荐文章于 2021-07-29 10:46:57 发布

阅读量183

点赞数

分类专栏：暑期实训

本文链接：https://blog.csdn.net/Marginitor/article/details/118325815

版权

暑期实训专栏收录该内容

16 篇文章 0 订阅

订阅专栏

摘要

了解知识图谱的构建过程
掌握相关技术的发展情况
查找相关模型demo

KG构建过程

数据获取

通过爬虫等技术从互联网上获取；直接使用现有的数据集。

输入：网页或其他数据来演
输出：符合特定格式的原始数据

知识获取

将原始数据处理为知识，包括实体、实体的属性值、实体的关系，其中实体的关系为 $(实体 S, 关系 R, 实体 T)$ 三元组，以上统称为结构化的知识。

输入：原始数据
输出：结构化的数据——实体、实体属性、实体关系

知识融合

实体消歧和实体对齐，将相关领域的知识进行融合，即识别多个实体实际上为同一实体，或多个关系实际上为同一关系。

输入：结构化的数据
输出：融合后的数据

知识服务

展示图谱，并提供基本的交互操作

应用

基于知识图谱提供其他应用

本次实训中，只需完成前四步，其中，算法方面只需集中关心第2、3步，即知识的抽取和融合。

算法

该部分内容参考自：https://zhuanlan.zhihu.com/p/135437344

将KG定义为 ${G = \{ E, R, F \}}$ ，其中 ${E, R, F}$ 分别表示实体、关系、事实(facts)的集合。
事实定义为三元组 $\in F}$ 。
$h ： h e a d$
$r ： r e l a t i o n$
$t ： t a i l$

知识表征学习 KRL

表征学习的主要任务为：学习实体和关系的低维分布式表征。

表征空间

Point-Wise空间
- NTN（2013）：通过一个双线性张量神经层建模多维的实体，head和tail之间的关系交互通过一个张量[来捕获。
- TransE（2013）：使用 ${d}$ 维向量空间表征实体和关系，转换原则为 $\approx t}$ 。
- TransH（2014）：线性变换模型。
- TransR（2015）：用不同的表征空间分别表示实体和关系，使用映射矩阵将实体特征映射到关系空间。
复数向量空间
- ComplEx（2016）：引入附属向量空间，可捕获对称和非对称关系。Hermitian点积用来组合关系、head以及tail的共轭。
- RotatE（2019）：借助欧拉公式的思想，将关系视为head实体到tail实体的旋转，即 $\circ r}$ ，其中 ${\circ}$ 表示hadmard积。
- QuatE（2019）：将传统的复数空间扩展到超复数空间。
高斯分布
- KG2E（2015）：引入高斯分布处理确定和不确定的实体和关系。论文将实体和关系embeded到多维高斯分布。
- TransG（2016）：使用高斯分布表征实体，将关系embedding看做高斯分布的混合。
流形和群
- ManifoldE（2016）：将point-wise embedding的方法扩展到manifold-based方法中。
- TorusE（2018）：通过压缩的Lie group n维圆环空间的embedding，解决TransE正则化的问题。
- DihEdral（2019）：通过二平面对称群保存2维的多边特征。

打分函数
用于衡量facts的合理性

基于距离
通过计算两个实体之间的距离衡量facts的合理性， $\approx t}$ 。
- Structural Embedding（2011）：使用两个映射矩阵和 ${L_{1}}$ 距离学习结构化embedding ${f_{r}(h,t) = {\lVert{M_{r,1}h - M_{r,2}t}\rVert}_{L_{1}}}$
- TransE（2013）：假设 ${h + r}$ 接近 ${t}$ ，打分函数可以定义为 ${L_1}$ 或者 ${L_2}$ 范数 ${f_{r}(h,t) = {\lVert{h + r - t}\rVert}_{L_{1}/L_{2}}}$
- TransH
- TransR
- TransD
- TransA
- TransF
- ITransF
- TransAt
- TransMS
基于语义相似度
通过语义匹配得分衡量facts的合理性， ${h^{T}M_{r} \approx t}$ 。
- SME
- DistMult
- HolE
- HolEx
- ANALOGY
- CrossE