论文重新读。
gate recurrent cell:门控递归单元使我们的模型能够从一个句子中选择最相关的字符和单词,以获得更好的NER结果。
Lattice LSTM:格子LSTM
实体识别可以看为两个过程:实体边界识别和实体的类型分类任务。
关系分类也是包含两个任务的呀,关系的实体头识别和实体头类型的分类任务。
词典融入的问题:
我们通过使用晶格结构的LSTM来表示句子中的词汇,从而将潜在的词汇信息整合到基于特征的LSTM-CRF中。
latent:晶格结构
lexicon:词汇表
网络模型:LSTM-CRF,使用LSTM的目的是为了建模时序信息。
所以是为每一个句子设计一个lstm模型吗?——文中提到是一个dynamic route。
gated cells are used to dynamically route information from different paths to each character.
构建Word的晶格结构,通过匹配一个句子序列以自动获得的词典。
character-lattice,用的是auto-matically obtained lexicon
s = c1, c2, . . . , cm, where cj denotes the jth character. s can further be seen as a word sequence s = w1, w2, . . . , wn
wi表示的句子中的Word,对于句子找那个的第i个Word,采用t(j,k)表示句子中第j个位置的k个charcter.
南京市|长江大桥
南京市:t(1,1)-南
t(1,2)-京
t(1,3)-市
t(2,1)-长
每个character的embedding的获取是采用bi-directional LSTM得到的。将正反向的embedding拼接作为char的embedding .
所以,论文中表示bi-grams信息
的时候,是将char和bi-gram做的拼接,而bi-grams的信息是在look-uplabel中找到的。
除了bi-grams之外的信息,还添加了word-segmentation的信息,而单词分区的信息查找是通过look-up table查询的。
e s代表一个分割标签嵌入查询表
所以,每个charcter拼接的信息,除了character自身额信息外,还拼接了character的bi-grams信息
,还有character的可能词的信息
。
在计算的时候,是在bi-lstm的cell信息计算时,将cell信息做了丰富。
这是在basic的LSTM计算的公式:
在cell的信息计算时,考虑cell的上一个时序信息和当前cell的信息。
然后,文中的LSTM在计算的时候的公式是:
Word cell的计算时c_be_w
融合character的cell的计算时采用权重分配,
在cell计算中,考虑了所有相同结尾的词的信息的拼接。
解码:维特比解码。一阶维特比解码方式。参数好像是有beam_size。
first-order Viterbi algorithm
损失函数:L2正则方式。