模型分为两个部分,左侧是标准的tag NER机制,但中间gate module融合了外部信息,具体是,针对句子中的每个token,根据token的embedding的相似度计算,找到最相近的前k个,然后,做注意力计算,加权得到相应的表示,在和原来的context 的embedding组合形成最终用于CRF的hidden state。
我们首先根据它们预先训练的嵌入来提取令牌中最相似的词。然后,增强模块使用注意机制对提取的单词所携带的语义信息进行加权。之后,利用加权语义信息通过门模块增强主干模型
用到的技术or技巧:gate 机制;extractor是如何实现的??