Title
Event representations with tensor-based compositions (AAAI 2018)
Summary
提出一种基于张量(tensor)的方法来进行事件表示,可以捕捉event和实体间更subtle的关系,在event-level和scenario-level的语义都有好的效果。并且做了广泛实验(i) a sentence similarity task, (ii) a new hard similarity task, and (iii) an event prediction task (two variants of the narrative cloze),都有不错的效果。
Research Objective
event representations
Problem Statement
提出好的representation应该捕获event-level和scenario-level的语义:
- event-level:当用完全不同的词汇描述事件时,representation能够学习到它们的相似性。比如,能够识别同义词。
- scenario-level:当事件中只有个别词汇的区别,导致的事件场景和意思完全不同。比如,she threw a football/ she threw a bomb。并且好的表征应该在相同场景的事件表征相似,不同的则表征不同。
Additive Composition模型和Tensor Composition模型的区别:
- additive模型:对wordembedding进行concatenation和addition,再输入到神经网络。
- tensor-based 模型:结合主谓宾来产生最终的事件representation。捕捉乘法的(multiplicative)交互。
- tensor composition的优势:捕捉事件成分元素的multiplicative interaction,因此能够对小的变化敏感。
Methods
Predicate Tensor Model

下列式子为事件
e
e
e的第
i
i
i个成分
e
i
e_i
ei的representation(其中
s
j
s_j
sj为主语表征,
o
k
o_k
ok为宾语表征,
P
P
P为谓语张量):

谓语张量的构建(其中
p
a
p_a
pa为谓语的embedding,
W
W
W与
U
U
U为参数)。在这个模型中,谓词张量由一个共享的基张量
W
∈
R
d
×
d
×
d
W∈R^{d×d×d}
W∈Rd×d×d(其中d为输入嵌入维数)导出。为了让谓词的词嵌入影响其结果张量,我们允许W的每个元素(W的每个一维“行”)按依赖于谓词嵌入p的线性函数的值进行缩放,
U
∈
R
d
×
d
×
d
U∈R^{d×d×d}
U∈Rd×d×d决定如何对
p
p
p进行缩放:

再将上二式带入一式,得到:

核心思想:
- 捕获使用谓词的不同场景或上下文,注意力权重将谓语embedding映射到新的向量空间。
- 事件embedding由主语元素和宾语元素的乘法之和构成,权重取决于谓语。不断的使用权重来获取事件中主谓宾的关键信息。先是谓语词embedding元素量级的注意力赋值求和后,再是谓语词量级的attention权重赋值。最后事件中谓语(前面处理过)、主语、宾语embedding相乘后累加。
Role Factored Tensor Model

角色分解张量模型核心:分别以(主语,谓语)(宾语,谓语)对形式处理,再加起来。
优势:比Predicate Tensor Model更少的参数。
张量
v
i
v_i
vi的构建:

分别以(主语,谓语)(宾语,谓语)处理:

加权求和,得到最终事件编码:

Training Task
主要有预测事件和预测word的方法来训练embedding。
Predict Events
能够分辨相似和不相同的事件
损失函数:

Predict Words
预测一个事件句子上下文附近的词,而不仅仅是事件词

Experiment
Similarity Evaluations
Transitive Sentence Similarity
使用模型对sentence similarity dataset进行打分。用Spearman’s correlation来检验模型打分与groundtruth标签分数。
数据集例子The transitive sentence similarity dataset (Kartsaklis and Sadrzadeh 2014a) :
- (design, reduce, amount) and (company, cut, cost)高度相似
- (wife, pour, tea) and (worker, join, party) 低分数
Hard Similarity Task
作者自己构建的数据集,更加困难的相似句子识别任务。
数据集特性:1)相似的事件,完全不同的表达;2)区别很小的句子,表达完全不同的含义
e.g., police catch robber / authorities apprehend suspect(高度相似) 以及 police catch robber /police catch disease(不相似)
Coherent Multiple Choice Narrative Cloze
完型填空,采用multi-choice narrative cloze (MCNC) (Granroth- Wilding and Clark 2016)并进行修改
Generating Event Schemas
event schema:是script(脚本)的一种形式,可以将事件和实体引入。
以前的工作:使用离散表示,并且进行计数。问题:难以解决同义词和一词多义。
embedding是连续的(continuous),通过embedding space即可发现相似的事件。这种方法简单、可伸缩,并且不需要维护共存信息的大型表。
Nearest Neighbor Schema Generation最近邻模式生成
方法:
- 在一个语料库中,用训练好的模型来计算representation
- 找出与event seed s s s 最邻近的 k k k个事件event
- 对于每一个邻近事件,如果满足以下所有要求,把他们加入schema,并记作
x
x
x:
- x x x谓词的GloVe embedding与schema中当前所有其他谓词之间的余弦距离大于 α \alpha α (目的:找到新出现的事件类型)
- 对于任意一个 x x x,如果它的GloVe embedding和schema中实体 e e e的余弦距离小于 β \beta β,用 e e e替代 x x x,生成新的 x ′ x' x′ (目的:找到新的schema)
- x ′ x' x′embedding与模式中所有其他事件之间的平均余弦距离(使用用于计算原始表示的相同复合函数计算)小于 γ \gamma γ (目的:保证新生成的事件 x ′ x' x′类似或者有关联)
以往方法的缺陷:离散计数,倾向于在样式中需要明确的三元组,挖掘语义存在困难。比如(police, found, machete) 和 (authorities, recovered, murder weapon) 是相似的,但以往的方法不可能认定他们之间有关系。
1596

被折叠的 条评论
为什么被折叠?



