【每周一文】Natural Language Processing (almost) From Scratch-CSDN博客

本文链接：https://blog.csdn.net/fangqingan_java/article/details/50493948

本文介绍了一个统一的神经网络架构，用于解决词性标注、词语组块分析、命名实体识别和语义角色标注等NLP任务。通过构建词向量、基于窗口和句子的方法，并结合训练策略，实现序列标注任务。尽管标准流程能接近最优解，但要获得理想效果，还需优化技巧，如多任务学习和模型组合等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

本文介绍了一个统一的神经网络架构用于解决自然语言处理各种的各种任务，主要是序列标注任务，包括词性标注（POS）、词语组块分析（Chunking）、命名实体识别（NER）以及语义角色标注（SRL）等。本文主要介绍如何构建这个统一的神经网络以及如何运用一些技巧去提高效果，结论是不需要特殊构建特征工程就可以得到State-of-art结果。

统一标识

为方面后续介绍，提前介绍各类标识。
NN：神经网络
前向神经网络: $f_\theta(.)=f_\theta^L(f_\theta^{L-1}(...f_\theta^1(.)...))$
矩阵A中的值: $[A]_{i,j}$
矩阵A中的列组合成的向量:<script type="math/tex" id="MathJax-Element-7">_i^{d_win}</script>表示第i列附件的d列组合而成的向量， $[A_i^{d_win}]^T=([A]_{1,i-d_win/2}...[A]_{d1,i-d_win/2},...,[A]_{1,i+d_win/2}...[A]_{d1,i+d_win/2})$

即d个列向量按照从前到后拼接成一个列向量。
向量x中的某个元素 $[x]_i$
一个向量集合: ${x_1,x_2,...,x_{T}}$ 表示为 $[x]_1^T$

神经网络构建

词向量构建

将一个词表示为一个向量，即表示为连续空间中的一个点，而不是最原始的ont-hot表示。
1. 每一个词表示为一个向量存储在表中供查询，lookup table（LW），对于每个词向量为 $LT_W(w)=<W>_w^1$ 即大表中的第w列。其中 $W \in R^{d_wrd*|D|}，其中d表示词向量长度，D表示词空间$
2. 对于一个输入序列可以表示一个矩阵 $LT_W([w]_1^T) = (<W>_{w1}^1 \ ... \ <W>_{wT}^1)$
3. 对于任何离散型特征可以进行扩展，如果每个词有多个离散特征，则每一个