图谱笔记（概念梳理）

最新推荐文章于 2024-02-12 09:36:29 发布

YingJingh

最新推荐文章于 2024-02-12 09:36:29 发布

阅读量912

点赞数 3

文章标签： mysql 机器学习 nlp 自然语言处理

本文链接：https://blog.csdn.net/Hekena/article/details/114622750

版权

这里写目录标题

词嵌入
- 词嵌入算法
RNN、CNN、LSTM（Bi-LSTM）
知识图谱嵌入、知识图谱表示
远程监督
事件抽取

词嵌入

词嵌入算法

RNN、CNN、LSTM（Bi-LSTM）

知识图谱嵌入、知识图谱表示

远程监督

事件抽取

Robust Lexical Feature for improved neutral network Named_Entity Recognition
词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。
词嵌入的方法包括人工神经网络、对词语同现矩阵降维、概率模型以及单词所在上下文的显式表示等。
举个例子，比如在一个文本中包含“猫”“狗”“爱情”等若干单词，而这若干单词映射到向量空间中，“猫”对应的向量为（0.1 0.2 0.3），“狗”对应的向量为（0.2 0.2 0.4），“爱情”对应的映射为（-0.4 -0.5 -0.2）（本数据仅为示意）。像这种将文本X{x12345……xn12345……yn }，这个映射的过程就叫做词嵌入。

词嵌入主要算法
Embedding Layer
由于缺乏更好的名称，Embedding Layer是与特定自然语言处理上的神经网络模型联合学习的单词嵌入。该嵌入方法将清理好的文本中的单词进行one hot编码（热编码），向量空间的大小或维度被指定为模型的一部分，例如50、100或300维。向量以小的随机数进行初始化。Embedding Layer用于神经网络的前端，并采用反向传播算法进行监督。
Word2Vec（Word to Vector）/ Doc2Vec（Document to Vector）

Word2Vec是由Tomas Mikolov 等人在《Efficient Estimation of Word Representation in Vector Space》一文中提出，是一种用于有效学习从文本语料库嵌入的独立词语的统计方法。其核心思想就是基于上下文，先用向量代表各个词，然后通过一个预测目标函数学习这些向量的参数。Word2Vec 的网络主体是一种单隐层前馈神经网络，网络的输入和输出均为词向量，其主要训练的是图中的红圈部分。
前馈神经网络（Feedforward NN）指每个神经元只与前一层的神经元相连，数据从前向后单向传播的 NN。其内部结构不会形成有向环（对比后面要讲到的 RNN/LSTM）。

CBOW (Continuous Bag-of-Words Model) 和 Skip-gram (Continuous Skip-gram Model)。CBOW将一个词所在的上下文中的词作为输入，而那个词本身作为输出，也就是说，看到一个上下文，希望大概能猜出这个词和它的意思。通过在一个大的语料库训练，得到一个从输入层到隐含层的权重模型；而Skip-gram它的做法是，将一个词所在的上下文中的词作为输出，而那个词本身作为输入，也就是说，给出一个词，希望预测可能出现的上下文的词，2-gram比较常用。

CBOW的目标是根据上下文来预测当前词的概率，且上下文所有的词对当前词出现概率的影响的权重是一样的，因此叫做continuous bag-of-words模型。如在袋子中取词，去取出数量足够的词就可以了，与取出词的先后顺序无关。
Skip-gram刚好相反，其是根据当前词来预测上下文概率的。
skip-gram模型是根据中心词预测上下文m个词的算法，m是用户自己定义的预测窗口大小，比如一句话“I love natural language processing”，假设词典库就是{“I”，“ love”，“ natural”，“ language”，“ processing”}，这些词事先都用one-hot编码。中心词为“natural”作为输入，给定窗口2，那么就要通过Skip-gram 模型预测出上下文为“I”,“love”，“language”，“processing”。
skip-gram需要做的就是使得概率P({“I”，“ love”，“ language”，“ processing”|“ natural”)最大。由于词语词之间相互独立，所以可以将概率公式转化为：P(“I"∣“natural")⋅P(“love"∣“natural")⋅P(“language"∣“natural")⋅P(“processing"∣“natural")
skip-gram预测主要围绕下面这个图进行：
（skip_gram 计算过程：
先进行one_hot编码，在训练得到词向量矩阵W，将one-hot 编码与矩阵W相乘，在进行归一化处理，得到Vc，利用训练好的上下文向量矩阵与Vc相乘，得到每个词的计算结果，之后，利用softmax对上述计算得出的每个词的计算结果进行归一化处理。）

1.one-hot编码：one-hot编码是一个（V * V)的矩阵，其中V代表字典库的大小。假设字典库就是{“I”，“ love”，“ natural”，“ language”，“ processing”}，对应的one-hot编码如下：

2.中心词向量矩阵W
中心词向量矩阵也叫输入层到隐含层的权重矩阵W(d*V)。
由于one-hot编码的稀疏性以及无法计算词与词之间的相似性等缺点，所以我们希望通过一个稠密的向量来表示词语，即将词语映射到低维的向量表示，我们把这种映射叫做词嵌入(word embedding)。
假设，将每个词的one-hot编码向量乘以一个学习好的低维的共享矩阵W(V *d)。比如要把例子5维向量（这里V=5）表示的词语映射到3维向量(d=3)，假设学习好的W为：

中心词“nature”one-hot编码的向量和共享矩阵相乘就得到它的词向量，用Vc表示，对向量进行归一化得到Vc=（0.46 0.15 0.39）：

3.上下文向量矩阵
类似词典中心词向量矩阵，但这里的词向量中d个维度储存的抽象信息，是作为上下文的词而言，它与中心词之间的对应关系信息，对于词典中的每一个词都对应一个上下文向量矩阵。比如nature的上下文你向量矩阵是W’，（3 12 8）,（13 11 26）,(20 32 23)，（8 22 12）分别是“I”，“ love”，“ language”，“ processing”相对“ natural”的上下文向量。

将中心词（nature）的词向量和学习好的权重矩阵的其他词做内积，此时会得到每个词的计算结果：

为了方便计算，再将结果进行归一化得到

4.softmax
输出层是一个softmax回归分类器，它的每个结点将会输出一个0-1之间的值（概率），是词典中每个词成为当前指定中心词的上下文的概率，这些所有输出层神经元结点的概率之和为1。

“I”是“nature”的上下文的概率为0.226，以此类推，选择4个(2*2)softmax最大的词作为当前中心词的上下文，因为这个例子词典库就5个词语，所以剩下4个都作为natural的上下文。

GloVe（Global Vectors for Word Representation）

GloVe是Pennington等人开发的用于有效学习词向量的算法，结合了LSA矩阵分解技术的全局统计与word2vec中的基于局部语境学习。LSA全称Latent semantic analysis，中文意思是隐含语义分析，LSA算是主体模型topic model的一种，对于LSA的直观认识就是文章里有词语，而词语是由不同的主题生成的，比如一篇文章包含词语：计算机，另一篇文章包含词语：电脑，在一般的向量空间来看，这两篇文章不相关，但是在LSA看来，这两个词属于同一个主题，所以两篇文章也是相关的。该模型不依赖本地上下文，是对全局字词同现矩阵的非零项进行训练，其中列出了给定语料库中单词在彼此间共同出现的频率。
从本质上说，GloVe是具有加权最小二乘法目标的对数双线性模型。字词共现概率的比率又编码成某种形式的潜在可能意义。例如，以下是基于60亿词汇语料库的各种关于冰和蒸汽的词的共现概率：

如上表所示，“ice(冰)”与“solid(固体)”共现的可能性比“gas(气体)”大，“steam(蒸汽)”与“gas(气体)”共现的可能性比“solid(固体)”大，从而很轻易地可以区别出二者区别。而“ice(冰)”和“steam(蒸汽)”都与“water(水)”的共现概率较大，都与“fashion(时尚)”共现概率很小，因此无法区别“ice”和“steam”。只有在可能性的比率中（图表第三行），才会将像“water”和“fashion”这样的非区别性词汇（non-discriminative）的噪音相抵消，可能性比率越大（远大于1）的词与“ice”特性相关联，可能性比率越小（远小于1）则与“steam”的特性相关联。

RNN与CNN与LSTM
RNN（循环神经网络），当前节点的输入包含之前所有节点信息。

RNN（递归神经网络），当前节点的输入以树结构形式包含部分之前节点信息。

CNN（卷积神经网络），当前节点的输入以树结构形式仅包含上一层节点信息。
（CNN常用于处理图像信息，对应的输入信息即为一张图片的像素信息）

CNN 经常被用于处理图像，那么对应的输入数据就是一张图片的像素信息
对于这样的输入数据，第一层卷积层可能只能提取一些低级的特征，如边缘、线条、角等，更多层的网络再从低级特征中迭代提取更复杂的特征。

RNN

图中的 AA 并不是一个神经元，而是一个神经网络块，可以简单理解为神经网络的一个隐层。
RNN 的这种结构，使得它很适合应用于序列数据的处理，比如文本、语音、视频等。这类数据的样本间存在顺序关系（往往是时序关系），每个样本和它之前的样本存在关联。
RNN 把所处理的数据序列视作时间序列，在每一个时刻 tt，每个 RNN 的神经元接受两个输入：当前时刻的输入样本 xtxt，和上一时刻自身的输出 ht-1，t时刻的输出：ht=Fθ (ht-1,xt)

长短时记忆（Long Short Term Memory，LSTM）
LSTM 可以被简单理解为是一种神经元更加复杂的 RNN，处理时间序列中当间隔和延迟较长时，LSTM 通常比 RNN 效果好

LSTM神经元图
在上图中，LSTM神经元共包含三个门，
遗忘门（Forget Gate)：接受xt 和上一时刻的ht-1 为输入，输出一个0到11之间的值，用于决定在多大程度上保留上一个时刻的元胞状态ct-1。1表示全保留，0表示全放弃。

输入门（Input Gate）: 用于决定将哪些信息存储在这个时刻的元胞状态 ct
ct 中。

输出门（Output Gate）：用于决定输出哪些信息。

RNN vs LSTM
虽然从连接上看，LSTM 和 RNN 颇为相似，但两者的神经元却相差巨大，我们可以看一下下面两个结构图的对比：
LSTM结构图

RNN结构图

注意：如果把 LSTM 的遗忘门强行置0，输入门置1，输出门置1，则 LSTM 就变成了标准 RNN。
可见 LSTM 比 RNN 复杂得多，要训练的参数也多得多。但是，LSTM 在很大程度上缓解了一个在 RNN 训练中非常突出的问题：梯度消失/爆炸（Gradient Vanishing/Exploding）。这个问题不是 RNN 独有的，深度学习模型都有可能遇到，但是对于 RNN 而言，特别严重。
Bi-LSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。
比如，我们对“我爱中国”这句话进行编码，模型如图所示。

前向的LSTM依次输入“我”，“爱”，“中国”得到三个向量{hL0,hL1,hL2},后向的LSTM 依次输入“中国”，“爱”，“我”得到三个向量{hR0,hR1,hR2},后将前向和后向的隐向量进行拼接得到{[hL0,hR2],[hL1,hR1],[hL2,hR0]} 对于情感分类任务来说，我们采用的句子的表示往往是[hL2,hR2],因为包含了上下文的信息。

梯度消失和梯度爆炸虽然表现出来的结果正好相反，但出现的原因却是一样的。
因为神经网络的训练中用到反向传播算法，而这个算法是基于梯度下降的——在目标的负梯度方向上对参数进行调整。如此一来就要对激活函数求梯度。
又因为 RNN 存在循环结构，因此激活函数的梯度会乘上多次，这就导致：
如果梯度小于1，那么随着层数增多，梯度更新信息将会以指数形式衰减，即发生了梯度消失（Gradient Vanishing）；
如果梯度大于1，那么随着层数增多，梯度更新将以指数形式膨胀，即发生梯度爆炸（Gradient Exploding）。
因为三个门，尤其是遗忘门的存在，LSTM 在训练时能够控制梯度的收敛性，从而梯度消失/爆炸的问题得以缓解，同时也能够保持长期的记忆性。果然，LSTM 在语音处理、机器翻译、图像说明、手写生成、图像生成等领域都表现出了不俗的战绩。

知识图谱嵌入
把这种将知识图谱中包括实体和关系的内容映射到连续向量空间方法的研究领域称为知识图谱嵌入（Knowledge Graph Embedding）、知识图谱的向量表示、知识图谱的表示学习（Representation Learning）、知识表示学习
转移距离模型（Translational Distance Model的主要思想是将衡量向量化后的知识图谱中三元组的合理性问题，转化成衡量头实体和尾实体的距离问题。这一方法的重点是如何设计得分函数，得分函数常常被设计成利用关系把头实体转移到尾实体的合理性的函数。
TranE模型：把关系向量r看作是头实体向量h和尾实体向量t之间的平移，即h+r≈t

打分函数为：

TransE模型的参数较少，计算的复杂度较低，并且其在大规模稀疏知识库上也依然具有较好的性能和可扩展性，但是TransE模型在处理复杂关系上效果欠佳，复杂关系通常是指一对多、多对一，多对多三种关系模型。举个例子给定两个事实（冯小刚，导演，芳华），（冯小刚，导演，私人定制），那么网络的目的便是优化嵌入表达使得：冯小刚+导演≈芳华，冯小刚+导演≈私人定制，这样一来会使得芳华≈私人定制，但这两部电影是不同的实体，应该用不同的向量表示
TransH模型：将头实体向量h和尾实体向量r沿超平面的法线投影到r对应的超平面，与TransE类似

打分函数：

TransR 模型：
虽然TransH模型使不同的实体在同一种关联下有了不一样的表示，但是还是假设实体和关系处于相同的语义空间，这限制了TransH对于实体和关系的表示能力。于是TransR提出，不同的关系应该拥有不同的语义空间。对每个事实三元组，头实体和尾实体会先通过定义的投影矩阵投影到对应关系r的向量空间中，然后再建立从头实体到尾实体的翻译关系。模型如下图所示。

语义匹配模型（Semantic Matching Models），更注重挖掘向量化后的实体和关系的潜在语义。该方向的模型主要是RESCAL[13]以及它的延伸模型

RESCAL模型的核心思想是将整个知识图谱编码为一个三维张量，由这个张量分解出一个核心张量和一个因子矩阵，核心张量中每个二维矩阵切片代表一种关系，因子矩阵中每一行代表一个实体。
DistMul：DistMul通过限制Mr为对角矩阵简化 RESCAL 模型，也就是说其限制Mr=diag（r）。
ComplEx模型：考虑到复数的乘法不满足交换律，所以在该模型中实体和关系的向量表示不再依赖实数而是放在了复数域，从而其得分函数不具有对称性。也就是说，对于非对称的关系，将三元组中的头实体和尾实体调换位置后可以得到不同的分数。

连续性特征与离散型特征
连续性特征编码：
离散型特征编码：
One-hot编码：独热码，在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制。假如有三种颜色特征：红、黄、蓝。因为有三种颜色状态，所以就有3个比特。即红色：1 0 0 ，黄色: 0 1 0，蓝色：0 0 1。自然状态码为：000,001,010,011,100,101；独热编码为：000001,000010,000100,001000,010000,100000

softmax回归模型
作用：通俗理解，softmax用作归一化。softmax是个非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。 Softmax将多个神经元的输出，映射到（0,1）区间内，可以看成是当前输出是属于各个分类的概率，从而来进行多分类。

Softmax的计算：
scores = np.array([123, 456, 789]) # example with 3 classes and each having large scores
scores -= np.max(scores) # scores becomes [-666, -333, 0]
softmax = np.exp(scores) / np.sum(np.exp(scores))

lexical similarity: Sematch支持对概念、词和实体的语义相似度的计算，并给出得分。 Sematch专注于基于特定知识的语义相似度量，它依赖于分类( 比如 ) 中的结构化知识。深度、路径长度 ) 和统计信息内容( 语料库与语义图谱) 。
from sematch.semantic.similarity import WordNetSimilarity
wns=WordNetSimilarity()
print(wns.word.similarity(‘dog’,’cat’,’li’)

CBOW的目标是根据上下文来预测当前词的概率，且上下文所有的词对当前词出现概率的影响的权重是一样的，因此叫做continuous bag-of-words模型。如在袋子中取词，去取出数量足够的词就可以了，与取出词的先后顺序无关。
Skip-gram刚好相反，其是根据当前词来预测上下文概率的。

远程监督Distant Supervision
它既不是单纯的传统意义上的监督语料，当然也不是无监督。它是一种用KB去对齐朴素文本的标注方法（Distant supervision for relation extraction without labeled data ）。
KB中已经存在实体-关系-实体的三元组，只需要把这三元组付给朴素文本中相应的句子就可以了。这时候z大佬就提出了一个非常大的假设：如果一个句子中含有一个关系涉及的实体对，那这个句子就是描述的这个关系。也就是说，报纸里所有含有中国和北京的句子，全都假设说的是北京是中国的首都。然后把这些句子全都提取出来作为首都这个关系的训练语料，直接批量打个标签，实体识别和标注一举两得。然后把一个关系对应的所有句子打个包，称作一个bag,干脆一个bag一个标签。这就是后来又有的工作，被叫做多示例学习。

上述方法有很多不严谨的地方，例如乔布斯是苹果的创始人，和乔布斯吃了一个苹果，表达的完全不是一个关系。这就说明远程监督的数据里存在大量的噪声，我们把真正含有指定关系的句子叫做real instance ，实际上不含任何关系的句子叫NA，其余的就都是反例。这个噪声问题被叫做wrong label 问题。这是远程监督方法第一个需要解决的大问题。

下面主要介绍三种远程监督的优化方法：

1、dynamic-transition matrix（动态转移矩阵），它能很好的拟合由 distant supervision 所带来的噪声。通过该矩阵，我们能够大大提高 relation extraction 的效果。

2、rule learning（规则学习），通过定义规则，定义否定模式（negative pattern）过滤掉一些噪音数据，可以很大程度提高性能。缺点是规则依赖人工定义，通用性差，但是方法本身简单有效。

3、清华刘知远团队的NER，利用了包含实体对的所有的句子信息，提出了attention机制，去解决远程监督的wrong label的问题。

Collective Event Detection via a Hierarchical and Bias Tagging Networks
with Gated Multi-level Attention Mechanisms基于多级注意机制的分层偏倚标记网络的集体事件抽取

event detection 事件抽取
语料资源：
MUC会议（Message Understanding Conference，消息理解会议）
TDT会议（Topic Detection and Tracking，话题识别与跟踪）：以事件的形式组织新闻事件，对其进行研究与评测。
话题（Topic）是TDT中的最基本的概念，一个话题是指由某种原因引起的，发生在特定时间点或时间段，在某个地域范围内，并可能导致某些必然结果的一个事件。事件 vs 话题：起初含义相同，后来话题含义为包括一个核心事件以及与之直接相关的事件的集合。
TDT的五个子任务：新闻报道切分、新事件识别、报道关系识别、话题识别、话题跟踪。

ACE会议（Automatic Context Extraction，自动内容抽取）：ACE的事件是预定义类型的、句子级的事件，语料中标注事件的类型、触发词、事件元素及其在事件中扮演的角色。
使用最广泛：ACE2005事件语料数据集
ACE中将事件定义为一个动作的发生或状态的改变。事件包含事件触发词和事件元素两部分。ACE中定义8大类23小类事件类型。ACE语料的标注格式采用XML方式，每个事件都标注了事件触发词、事件类型、事件子类型、事件元素和事件元素扮演的角色信息。
8大类23小类事件类型：
1 人生（Life）
1.1 出生（Be-Born）（该事件有一个参与者槽(PERSON-ARG)和两个属性槽(TIME-ARG和PLACE-ARG)。）
1.2 结婚（Marry
1.3 离婚（Divorce）
1.4 受伤（Injure）INJURE活动有三个参与者位置（AGENT-ARG，VICTIM-ARG和INSTRUMENT-ARG）和两个属性槽（TIME-ARG和PLACE-ARG）。
1.5 死亡（Die）Die事件有三个参与者位（AGENT-ARG，VICTIM-ARG和INSTRUMENT-ARG）和两个属性位（TIME-ARG和PLACE-ARG）
2 移动（Movement）
Movement事件只有一种子类型：Transport。
TRANSPORT事件有六个参与者槽（TRANSPORTER-ARG，ARTIFACT-ARG，VEHICLE-ARG，PRICE-ARG，ORIGIN-ARG和DESTINATION-ARG）和一个属性槽（TIME-ARG）。使用的任何车辆是VEHICLE-ARG；任何其他工件（运输车辆除外）是ARTIFACT-ARG；车辆上的任何乘客都是ARTIFACT-ARG；任何以一些未指明的方式移动的人都是ARTIFACTARG（例如他逃离该州）；明确指示另一实体移动的任何实体都是TRANSPORTER-ARG，包括飞行员和司机。

3 交易（Transaction）
3.1 所有权转移（Transfer-Ownership
Transfer-Ownership活动有五个参与者位置（BUYER-ARG，SELLER-ARG，BENEFICIARY-ARG，ARTIFACT-ARG和PRICE-ARG）和两个属性位（TIME-ARG和PLACE-ARG）
3.2 转账（Transfer-Money）
TRANSFER-MONEY事件有4个参与者位（GIVER-ARG，RECIPIENTARG，BENEFICIARY-ARG和MONEY-ARG）和2个属性位（TIME-ARG和PLACE-ARG）。

4 业务（Business）
4.1 Start-Org
每当创建新的Organization时，就会发生Start-Org事件。Start-Org事件有两个参与者位（AGENT-ARG和ORG-ARG）和两个属性位（TIME-ARG和PLACE-ARG）
4.2 合并组织（Merge-Org）Merge-Org事件具有一个参与者时隙（ORG-ARG）和两个属性时隙（TIME-ARG和PLACE-ARG）。
4.3 申报破产（Declare-Bankruptcy）Declare-Bankruptcy事件有一个参与者槽(ORG-ARG)和两个属性槽(TIME-ARG和PLACE-ARG)。
4.4 End-Org
只要Organization不再存在（换句话说“停止运营”），就会发生End-Org事件
End-Org事件有一个参与者槽(ORG-ARG)和两个属性槽(TIME-ARG和PLACE-ARG)。
5 冲突（Conflict）
5.1 攻击（Attack）
ATTACK事件有三个参与者时隙（ATTACKER-ARG，TARGET-ARG和INSTRUMENT-ARG）和两个属性时隙（TIME-ARG和PLACE ARG）。
5.2 示威游行（Demonstrate）
只要有许多人聚集在公共场所抗议或要求某种官方行动，就会发生Demonstrate事件。
Demonstrate事件有一个参与者位置（ENTITY-ARG）和两个属性槽（TIME-ARG和PLACE-ARG）。

6 联系（Contact）
6.1 会议（Meeting）
Meet事件有一个参与者位置（ENTITY-ARG）和三个属性位置（TIME-ARG，PLACE-ARG和DURATION-ARG）

6.2 Phone-Write
当两个或两个以上的人直接参与讨论而不是面对面的时候，会发生Phone-Write事件。为了减少此类事件的开放性，我们将其限制为至少指定了两方的书面或电话通信中。Phone-Write事件有一个参与者插槽（ENTITY-ARG）和一个属性插槽（TIME-ARG）
7 Personnel
所有Personnel事件都可以具有POSITION属性
7.1 起始位置（Start-Position）Start-Position事件有两个参与者位（PERSON-ARG和ENTITY-ARG）和三个属性位（POSITION-ARG，TIME-ARG和PLACE-ARG
7.2 结束位置（End-Position）当PERSON实体停止为组织、工厂或GPE内的办公室工作(或变更办公室)时，就会发生End-Position事件。End-Position事件有两个参与者槽(PERSON-ARG和ENTITYARG)和三个属性槽(POSITION-ARG、TIME-ARG和PLACE-ARG)。
7.3 提名（Nominate）
当适当的人通过官方渠道建议某人参加Start-Position活动时，就会发生Nominate事件。Start-Position事件有两个参与者槽(PERSON-ARG和AGENT-ARG)和三个属性槽(POSITION-ARG、TIME-ARG和PLACE-ARG)
7.4 选举（Elect）
只要候选人赢得旨在确定Start-Position事件的PERSON参数的选举，就会发生Elect。事件Elect事件有两个参与者槽(PERSON-ARG和AGENT-ARG)和三个属性槽(POSITION-ARG、TIME-ARG和PLACE-ARG)。
8 司法（Justice）
8.1 逮捕监狱（Arrest-Jail）

8.2 释放-假释（Release-Parole）
Release-Parole事件有两个参与者槽(PERSON-ARG和ENTITY-ARG)和三个属性槽(CRIME-ARG、TIME-ARG和PLACEARG)。

8.3 审判听证（Trial-Hearing

8.4 指控（Charge-Indict）
8.5 起诉（Sue）
8.6 定罪（Convict）
8.7 判决（Sentence
8.8 罚款（Fine）
8.9 执行（Execute
8.10 引渡（Extradite）
每当国家行为者将PERSON从一个地方（通常是与国家行为者相关的GPE，但有时是其控制下的设施）引渡到另一个地方（LOCATION，GPE或FACILITY）以进行法律诉讼时，就会发生Extradite事件。
8.11 无罪释放（Acquit
8.12 赦免（Pardon）
8.13 上诉（Appeal

此外还有四种属性：
事件的极性（polarity）:表示肯定的事件或表示否定的事件
事件的时态（tense）：过去发生的事件、正在发生的事件、将来即将发生的事件，以及无法确定时态的事件
事件的指属（genericity）:特指（specific）事件和泛指（generic）事件
事件的形态（modality）：语气非常肯定（asserted）的事件和信念事件（believed event）、假设事件（hypothetical event）等

KBP会议（Knowledge Base Population）：研究从自然语言文本中抽取信息，并且链接到现有知识库的相关技术。
BioNLP会议：从生物医学文献中抽取出事件触发词、事件类型和事件元素等生物事件信息。
TimeBank语料库：面向问答系统的时间和事件的识别会议

YingJingh

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
图谱笔记（概念梳理）

这里写目录标题词嵌入词嵌入算法RNN、CNN、LSTM（Bi-LSTM）知识图谱嵌入、知识图谱表示远程监督事件抽取词嵌入词嵌入算法RNN、CNN、LSTM（Bi-LSTM）知识图谱嵌入、知识图谱表示远程监督事件抽取Robust Lexical Feature for improved neutral network Named_Entity Recognition词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数
复制链接

扫一扫