读论文《Natural Language Processing (Almost) from Scratch》
原文地址:http://blog.csdn.net/qq_31456593/article/details/77504902
introduce
本文也是神经网络语言模型和词嵌入的经典论文,本文与之前的《A Neural Probabilistic Language Model》模型的不同在于,本文的核心目标是训练好的word embedding以完成词性标注 (POS)、短语识别(CHUNK)、命名实体识别(NER) 和语义角色标注 (SRL)等任务。
本文的语言模型网络只是用来预训练word embedding,最后要做的是拿word embedding作为具体任务(其共同目标就是标注)网络第一层(将词的one-hot表示变为word embedding)的参数继续在具体任务中训练。最后获得在POS,CHUNK,NER,SRL上的良好表现。
本文用到了多任务训练的思路,即共享one-hot到word embedding的转化层的参数,在多项任务上进行训练。
method
本文设计了2个网络来完成这些nlp任务,其中一个叫window approach,另一个叫sentence approach,网络结构见下图
其中window approach是基于n-gram模型的改造,窗口大小为n,中心的那个词为中心词,上下文各(n-1)/2个词。而sentence approach是利用卷积获取上下文并将其变成大小一致的中间表示(通过修改卷积核的大小和步伐实现)。两个模型最后都是最大化softmax输出的正确标签类别。
window approach适用于POS,CHUNK,NER, sentence approach 适用于LRS。
word embedding
本文以无监督的方法预训练word embedding以提高在具体工作