PCNN模型解读
本文是对Daojian Zeng, Kang Liu, Yubo Chen and Jun Zhao的论文《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》的简要解读。
Multi-instance problem
训练样本:bag
- bag:由多个instance组成,普通的训练任务中训练样本就是instance
- bag有label,这个label是对于整个bag的概念,而bag中instance的label是未知的
目的:找到bag和instance之间的逻辑关系,从而能够对一个新bag预测其整体label
- 常见loss function设计:对bag中所有instance做平均池化 / 最大池化 / attention机制,进而得到对bag整体的预测
预测方法:分training和evaluation时的不同情况,有bag-level的,也有instance-level的
PCNN
model
model architecture:
quintuple:
- E E E: word embeddings
- P F 1 , P F 2 PF_1, PF_2 PF1,PF2: position embeddings 1, 2
- W W W: convolution filter matrix
- W 1 W_1 W1: linear transformation matrix (=> get n1 relation scores)
MIL :
- 输入 - T T T bags { M 1 , M 2 , … , M T } \left \{ M_1, M_2, \dots, M_T \right \} { </