论文题目:An introduction to Deep Learning in Natural Language Processing: Models, techniques, and tools
摘要
深度学习技术在NLP中的应用;NLP研究中的主要资源,包括软件,硬件和受欢迎的语料库;主要局限性
一、简而言之
如机器翻译,问答,摘要等。涉及模型,系统和算法的设计和实施,以解决理解人类语言的实际问题。
将NLP分为两个主要的子分支,分别是基础和应用研究:前者如语言建模,形态分析,句法处理或解析、语义分析;后者如从文本中自动提取相关信息(如命名实体及其之间的关系),语言之间的文本翻译,文档摘要,问题的自动回答,分类和文档的聚类。
深度学习引入NLP,替代传统ML算法:端到端训练且无需特定特征提取工程;能处理大量训练数据;但对与自然语言的语义分析有关的任务,语义注释数据有限(需要专业人员)
最近的模型(如回答或检测欺骗内容)超越人类在各种任务上的表现。但是仍存在问题,如计算成本,结果的可重复性以及缺乏可解释性。
仅考虑最近的调查(自2019年以来),包括:主要NLP任务的分类;当前问题和未来工作的分析(重点是可重复性);软件和硬件资源以及NLP中使用的主要语料库的描述。【一些相关工作】
二、任务和应用
序列分类:输入为一组序列,每个序列包括系列tokens,对应一个类别;相关示例(情感分析,根据其极性对简短的文本进行分类;文本分类,找文本的主题(体育,财务…);回答句子选择,从给定的段落/文本中选择最佳句子以回答输入问题)
成对序列分类:根据它们的相似性,语义和含义,比较和分类两个不同的序列,通常是一个二进制分类任务。输入为两个不同的序列,若表达相同的含义返回+1,否则-1;需要充分理解序列并提取有意义的语义表示,克服同义、多义等问题;相关示例(Quora问题对挑战,从Quora找到重复的问题)
单词标注:每个token附加一个标签,输出空间由输入的每个元素的标签序列组成;相关示例(命名实体识别(NER),从输入序列中确定相关实体(如名称,位置);经典问题回答,使用输入段落涉及的概率分布,选择包含答案的span;语音部分(pos)标记,将文本中的单词标记为对应语音的特定部分(如动词,名词,形容词))
seq2seq:使用输入序列生成输出序列。与单词标记不同,输入序列和输出序列不直接对齐,且需要生成新句子(尽管输入输出都包含序列,但可能是不相交的集合)
三、NLP的最新进展
过去十年中的主要问题之一是定义token,句子和文件的适当有效表示。早期的one-hot编码存在2个主要问题(输入词由巨大的向量描述,其尺寸取决于字典大小;不同单词仅由正交表示,而单