Title
Knowledge-driven event embedding for stock prediction (COLING 2016)
Summary
沿用NTN(Neural tensor network)利用knowledge graph来构建event embeddig 和knowledge embedding,并联合训练。训练好的embedding用于stock prediction,并且在case study中人为评价event similarity。
Research Objective
event embedding
Problem Statement
- 基于word embedding进行事件编码存在问题:embedding相似度无法表达与意见联系;同一含义的不同表示的向量相似度无关。导致原因:缺少背景知识(background knowledge)
- event embedding的优势:1)捕获语义和句法信息 2)减少离散事件的稀疏性。应在相似语义和语法的信息上有着类似的embedding
- 知识图谱蕴含信息:种类知识和关系知识。种类知识:蕴含实体的属性,表达相似属性的实体关系;关系知识:表达关系,区分相似字向量编码的不同事件组。
- 事件提取缺少实体和关系的领域知识(background knowledge)。本文方法:使用knowledge Graph进行event embedding learning。
Methods
Knowledge Graph Embedding
使用NTN(neural tensor network): 源自Reasoning With Neural Tensor Networks for Knowledge Base Completion
previous work:
- RNN(Recursive neural network )向量仅仅通过非线性函数进行隐式交互,向量间交互不足
- MV-RNN参数太大
- 适用于推理两个实体关系的神经网络。简单且强有力的组合函数能比许多特定输入的组合函数更加有效,能够通过组合更小的元素成分得到整体的含义。
- 思想:对所有结点通过使用相同的基于张量的组合函数。每一个张量切片可以捕捉到节点间一种类型的影响。
损失函数:
其中,
T
c
(
i
)
T_c^{(i)}
Tc(i)是将原来的
e
2
e_2
e2随机替换。
https://zhuanlan.zhihu.com/p/338565219
https://blog.csdn.net/weixin_34195142/article/details/86358946
https://blog.csdn.net/yexiaohhjk/article/details/86374735
Event Embedding
∗
f
(
⋅
)
=
t
a
n
h
(
)
*f(·)=tanh()
∗f(⋅)=tanh()
对主语(
A
A
A)、谓语(
P
P
P)、宾语(
O
O
O)用word2vec的方式预训练,输入NTN进行计算:
S
1
=
g
(
A
,
P
)
,
S
2
=
g
(
A
,
P
)
,
C
=
g
(
S
1
,
S
2
)
S_1 =g(A,P), S_2=g(A,P), C=g(S_1,S_2)
S1=g(A,P),S2=g(A,P),C=g(S1,S2)
损失函数:
其中
E
r
E^r
Er为用随机的字向量
w
r
w^r
wr替代
A
A
A后的编码结果。随机构造(损坏的)三元组分数应该比普通的低。损失函数是tanh,范围在(-1,1)。当
E
E
E与
E
r
E^r
Er差值大于1,损失为0。
Joint Knowledge and Event Embedding
联合训练知识和事件embedding:
Experiment
Event Similarity
- 人为判断向量相似度和事件相似度是否有关系,并进行评分。
- 语义相关但所用词汇不同的事件,embedding表现较好;模型相似语义或者主题的embedding靠近。
Stock Prediction
前一天的news information去预测后一天,对15支股票进行二分类预测。