NLP中的深度学习笔记

最新推荐文章于 2024-06-17 19:50:21 发布

袁何苏

最新推荐文章于 2024-06-17 19:50:21 发布

阅读量350

点赞数

分类专栏： python NLP 文章标签： NLP 深度学习

python 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

NLP

6 篇文章 0 订阅

订阅专栏

序章
1.NLP对人类语言进行自动分析和表示的计算技术。
2.与自然语言相关的任务：子结构解析、词性标注、机器翻译、对话系统
3.深度学习架构和算法为计算机视觉和传统模式识别领域带来了巨大进展->NLP
4.之前解决NLP问题的的机器学习方法基于浅层模型(SVM、logistic回归)，在非常高维和稀疏的特征（one-hot encoding）（独热编码）上训练得到。
5.近年由于基于稠密向量表征的神经网络对多种NLP任务取得了不错吧的效果，代表了词嵌入和深度学习方法的成功。
6.深度学习：使得多级自动特征表征学习成为可能。
传统机器学习：严重依赖手动制作的特征，及其费时，且不完备
7.《Natural Language Processing (Almost) from Scratch》——Ronan Collobert 展示了在多个NLP任务上由于当时最优方法的简单深度学习框架：命名实体识别（NER）、语义角色标注（SRL）和词性标注—>之后的研究人员提出了大量基于复杂深度学习的算法用于解决有难度的NLP任务
8.本文综述了用于自然语言任务的主要深度学习模型和方法，如卷积神经网络，循环神经网络，和递归神经网络。
本文还讨论了记忆增强策略、注意力机制，以及如何使用无监督模型、强化学习方法和深度生成模型解决语言任务。

第二章分布式表征

1.基于统计的NLP已经成为建模复杂自然语言任务的首要选择。问题在于遭受到维度灾难。尤其是在学习语言模型的联合概率函数时。
2.促使人们在低维空间中学习分布式词表征的方法提供了动力，从而导致了词嵌入方法的诞生。
3.词嵌入：
   分布式假设：具有相似语义的词倾向于具有相似的上下文单词，这些词向量尝试捕获邻近词的特征。
   分布式词向量的主要优点在于它们能捕获单词之间的相似性。
   用余弦相似性等度量方法评估词向量之间的相似性也是可能的。
   词嵌入常用于深度学习的第一个数据预处理阶段
   获得方法：在大型无标注文本语料库中最优化损失函数，从而获得预训练的词嵌入向量。
       例如：基于上下文预测具体词，能学习包含了一般句法和语义的词向量，它高效且维度小。
4.多年来构建词嵌入向量的模型一般是浅层神经网络，没有必要使用深层神经网络构建更好的词嵌入向量。
？：不过基于深度学习的 NLP 模型常使用这些词嵌入表示短语甚至句子，这实际上是传统基于词统计模型和基于深度学习模型的主要差别。
5.词嵌入已经时NLP任务的标配
6.预训练模型参考了词嵌入的想法，在词嵌入的基础上进一步能编码句子层面的语义信息。
7.分布式表示即词嵌入主要通过上下文或者词的“语境”来学习本身该如何表达。
8.语义合成例如「man」+「royal」=「king」
9.CBOW：会在给定上下文词的情况下计算目标词的条件概率，上下文的选区范围通过窗口大小k决定。
10.Skip-Gram的做法与CBOW相反，它在给定目标词或中心词的情况下预测上下文词。并且所有窗口内的词与中心词距离相等
11.无监督设定中：词嵌入的维度可以直接影响到预测的准确度，维度越多，预测准确度也会增加，一直到收敛到某个点。
12.CBOW模型：是一个简单的全连接神经网络，只有一个隐藏层，输入层是上下文词的one-hot向量，它有v个神经元（词汇量），中间的隐藏层有N个神经元，N远远小于V。最后的输出层是所有词上的一个sofymac函数。层级之间的权重矩阵分别是V*N阶的W和N*V阶的W`。词汇表中每一个词最终会表征为两个向量：v_c和v_w。它们对应上下文词表征和目标词表征。
13.词嵌入的局限1：无法表示短语。解决方法：基于词共现识别并且为它们单独地学一些词嵌入量。
14.词嵌入地局限2：学习地词嵌入仅基于周围词地小窗口，如good和bad几乎有相同地词嵌入，对情感分析等下游任务不友好。解决方法：特定情感词嵌入
15.词嵌入应该高度依赖所使用的领域。负采样？
16.传统的词嵌入为每个词分配不同的向量，使其不能解释多义词。解决方法：多语平行数据。

第三章卷积神经网络
1.由于词嵌入的流行以及其在分布式空间中展现出的强大表征能力，使得我们需要一种高效的特征函数，以从词序列或n-grams中抽取高级语义信息。
   这些信息能用于许多NLP任务，如情感分析、自动摘要、机器翻译和问答系统。
2.卷积神经网络CNN因为其在计算机视觉中的有消息而被引入到自然语言处理中，实践证明它也非常适合序列建模。
3.CNN具有从输入句子抽取n-gram特征的能力，因此能为下游任务提供具有句子层面信息的隐藏语义表征。
4.基于CNN的句子建模网络处理：
   1.序列建模
   2.窗口方法

第四章循环神经网络
1.RNN的思路是处理序列信息。循环表示RNN模型对序列中的每一个实例都执行同样的任务，从而使输出依赖于之前的计算和结果。
2.该模板天然适合很多NLP任务。

原文链接：https://nlpoverview.com/