读论文《Natural Language Processing (Almost) from Scratch》

最新推荐文章于 2025-03-16 08:00:00 发布

Doit_行之

最新推荐文章于 2025-03-16 08:00:00 发布

阅读量7.1k

点赞数 1

分类专栏：论文深度学习文章标签：神经网络自然语言处理

本文链接：https://blog.csdn.net/qq_31456593/article/details/77504902

版权

本文介绍了一种从头开始的自然语言处理方法，通过神经网络预训练word embedding，用于词性标注、短语识别、命名实体识别和语义角色标注。论文采用多任务学习，共享词嵌入层参数，并提出window和sentence两种模型，分别适用于不同的NLP任务。此外，还讨论了词嵌入的无监督训练和优化目标，以及这种方法对未来研究的启示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

读论文《Natural Language Processing (Almost) from Scratch》

原文地址：http://blog.csdn.net/qq_31456593/article/details/77504902

introduce

本文也是神经网络语言模型和词嵌入的经典论文，本文与之前的《A Neural Probabilistic Language Model》模型的不同在于，本文的核心目标是训练好的word embedding以完成词性标注 (POS)、短语识别(CHUNK)、命名实体识别(NER) 和语义角色标注 (SRL)等任务。

本文的语言模型网络只是用来预训练word embedding，最后要做的是拿word embedding作为具体任务（其共同目标就是标注）网络第一层（将词的one-hot表示变为word embedding）的参数继续在具体任务中训练。最后获得在POS，CHUNK,NER,SRL上的良好表现。

本文用到了多任务训练的思路，即共享one-hot到word embedding的转化层的参数，在多项任务上进行训练。

method

本文设计了2个网络来完成这些nlp任务，其中一个叫window approach，另一个叫sentence approach，网络结构见下图

其中window approach是基于n-gram模型的改造，窗口大小为n，中心的那个词为中心词，上下文各(n-1)/2个词。而sentence approach是利用卷积获取上下文并将其变成大小一致的中间表示（通过修改卷积核的大小和步伐实现）。两个模型最后都是最大化softmax输出的正确标签类别。

window approach适用于POS,CHUNK,NER, sentence approach 适用于LRS。