【每周一文】Natural Language Processing (almost) From Scratch

本文介绍了一个统一的神经网络架构,用于解决词性标注、词语组块分析、命名实体识别和语义角色标注等NLP任务。通过构建词向量、基于窗口和句子的方法,并结合训练策略,实现序列标注任务。尽管标准流程能接近最优解,但要获得理想效果,还需优化技巧,如多任务学习和模型组合等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

本文介绍了一个统一的神经网络架构用于解决自然语言处理各种的各种任务,主要是序列标注任务,包括词性标注(POS)、词语组块分析(Chunking)、命名实体识别(NER)以及语义角色标注(SRL)等。本文主要介绍如何构建这个统一的神经网络以及如何运用一些技巧去提高效果,结论是不需要特殊构建特征工程就可以得到State-of-art结果。

统一标识

为方面后续介绍,提前介绍各类标识。
NN:神经网络
前向神经网络: fθ(.)=fLθ(fL1θ(...f1θ(.)...))
矩阵A中的值: [A]i,j
矩阵A中的列组合成的向量: <A>dwini <script type="math/tex" id="MathJax-Element-7">_i^{d_win}</script>表示第i列附件的d列组合而成的向量, [Adwini]T=([A]1,idwin/2...[A]d1,idwin/2,...,[A]1,i+dwin/2...[A]d1,i+dwin/2)

即d个列向量按照从前到后拼接成一个列向量。
向量x中的某个元素 [x]i
一个向量集合: x1,x2,...,xT 表示为 [x]T1

神经网络构建

词向量构建

将一个词表示为一个向量,即表示为连续空间中的一个点,而不是最原始的ont-hot表示。
1. 每一个词表示为一个向量存储在表中供查询,lookup table(LW),对于每个词向量为 LTW(w)=<W>1w 即大表中的第w列。其中 WRdwrd|D|dD
2. 对于一个输入序列可以表示一个矩阵 LTW([w]T1)=(<W>1w1 ... <W>1wT)
3. 对于任何离散型特征可以进行扩展,如果每个词有多个离散特征,则每一个

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值