题目:
Graph Convolutional Networks for Named Entity Recognition
Cetoli A , Bragaglia S , O’Harney A D , et al. Graph Convolutional Networks for Named Entity Recognition[J].
https://arxiv.org/pdf/1709.10053.pdf
作者:
Cetoli, A. Bragaglia, S. O’Harney, A. D. Sloan, M. Context Scout
动机:
GCN引到NLPk:也想试试把GCN在NER上也使用一下。
过去NER中所使用的方法为统计方法:Markov models,Conditional Random Fields (CRFs),Support Vector Machines (SVMs)
神经网在NER上的过程:
提出简单的前向网络(2011-Natural language processing (almost) from scratch) —> RNN(2015-Named entity recognition with bidirectional lstm-cnns) --> 在最后一层使用CRF(2015-Bidirectional LSTM-CRF models for sequence tagging) --> 联合词嵌套与词形态好的门方法的使用(2016-A joint model for word embedding and word morphology) --> 预测附近词(2017-Semi-supervised multitask learning for sequence labeling)
存在方法的不足:这些方法都没有使用到句法信息。故论文要考虑一下句法依存的信息。
动机:在NER的准确率方面句法依存树与其它语言特征等信息办演着重要重色。
贡献1:介绍了把GCNs应用到实体识别方法;贡献2:对比之前的解决方法评估了使用依赖树所带来的影响;
理论
GCN
u,v是图中的节点;
N(v)表示节点v的近邻及节点v自己;
h_k_u表示节点u在第k层的嵌入向量表示;
W,b表示学习参数;
有向性的加入(用GCN来表示syntactic/dependency trees)
这个启发来自bi-LSTM的结构,采用两个堆叠的GCNs来实GCN的方向性。
公式化这样
模型
Bi-LSTM:作为一个中间变量;
Bi-GCN:基于Spacy v1.8.2的dependency tree;
Input vectors:分为三种情况作为输入。
输入01:
输入02:
输入03:
Dropout;
Network output;
实验结果
对于bi-LSTM+CRF模型,加入GCN有2.2%的提升。加入了PoS tag也提升了4.6%。Glove向量从1M到2M有0.7%的提升。
另外,本论文的结果并没有取得state of the art的效果。
原因可能有这几个:
a. 没有使用BIOES标注;
b. 编码的向量作了截断;
总结
一个加入了GCN的模型来进行NER任务;
没有达到state of the art的效果,可是是一种可以参考的方法。
参考
Morphology–形态学
形态学是涉及语素系统的研究,它研究词的内部结构和构造规则;
语素是语言最小的意义单位。句子是由单词 构成的,词可以被分成更小的成分。我们把 这些处于单词最低一层的、有意义的成分称 为”语素”。
构词方法 (word formation)
派生法(derivation)
复合法(compound)
缩略法(abbreviation)
混合法(blending)
逆构法(backformation)
借词法(borrowing)
造词法(invention)
happyprince.https://blog.csdn.net/ld326/article/details/114268203