自然语言处理基础
文章平均质量分 95
这是我自己阅读书籍《深度学习进阶——自然语言处理》一书所记录的笔记,仅作为学习使用。
路哞哞
一些笔记和心得而已。
展开
-
第二章 自然语言处理与单词的分布式表示
这个 PTB 语料库是以文本文件的形式提供的,与原始的 PTB 的文章相比,多了若干预处理,包括将稀有单词替换成特殊字符 (unk 是 unknown 的简称),将具体的数字替换成 “N” 等。通过对所有单词创建近义词集合,并用图表示各个单词的关系,可以定义单词之间的联系,计算单词之间的相似度等。具体来说,在关注某个单词的情况 下,对它的周围出现了多少次什么单词进行计数,然后再汇总。这里,我们将这种做法称为“基于计数的方法”,在有的文献中也称为“基于统计的方法”。这个表格的各行对应相应单词的向量。原创 2023-04-09 10:17:22 · 825 阅读 · 0 评论 -
第三章 word2vec
word2vec 中使用的神经网络的输入是上下文,它的正确解标签是被这些上下文包围在中间的单词,即目标词。两种方法在学习机制上存在显著差异:基于计数的方法通过对整个语料库的统计数据进行一次学习来获得单词的分布式表示,而基于推 理的方法则反复观察语料库的一部分数据进行学习(mini-batch 学习)。根据过去的实验,CBOW 模型(和 skip-gram 模型)得到的单词的分布式表 示,特别是使用维基百科等大规模语料库学习到的单词的分布式表示,在单词的含义和语法上符合我们直觉的案例有很多。原创 2023-04-14 09:55:26 · 359 阅读 · 0 评论 -
第四章 word2vec 的高速化
word2vec 的机制中的 CBOW 模型。因为 CBOW 模型是一个简单的 2 层神经网络,所以实现起来比较简单。但是,目前的实现存在几个问题,其中最大的问题是,随着语料库中处理的词汇量的增加,计算量也随之增加。实际上,当词汇量达到一定程度之后,上一章的 CBOW 模型的计算就会花费过多的时间。如图 4-1 所示,上一章的 CBOW 模型接收拥有 2 个单词的上下文,并基于它们预测 1 个单词(目标词)。此时,通过输入层和输入侧权重(Win。原创 2023-04-15 09:27:10 · 249 阅读 · 0 评论 -
第五章 RNN
到目前为止, 我们看到的神经网络都是前馈型神经网络。前馈(feedforward)是指网络的传播方向是单向的。具体地说,先将输入信号传给下一层(隐藏层),接收到信号的层也同样传给下一层,然后再传给下一 层……像这样,信号仅在一个方向上传播。虽然前馈网络结构简单、易于理解,但是可以应用于许多任务中。不过, 这种网络存在一个大问题,就是不能很好地处理时间序列数据(以下简称为 “时序数据”)。更确切地说,单纯的前馈网络无法充分学习时序数据的性质(模式)。于是,原创 2023-04-15 11:32:52 · 414 阅读 · 0 评论 -
第六章 Gated RNN
上一章的 RNN 存在环路,可以记忆过去的信息,其结构非常简单,易于实现。不过,遗憾的是,这个 RNN 的效果并不好。原因在于,许多情况下它都无法很好地学习到时序数据的长期依赖关系。现在,上一章的简单 RNN 经常被名为 LSTM 或 GRU 的层所代替。实际上,当我们说 RNN 时,更多的是指 LSTM 层,而不是上一章的 RNN。顺便说一句,当需要明确指上一章的 RNN 时,我们会说“简单 RNN”或 “Elman”。LSTM 和 GRU 中增加了一种名为 “门” 的结构。原创 2023-04-15 15:20:57 · 451 阅读 · 0 评论 -
第七章 基于 RNN 的生成文本
在第 5 章和第 6 章中,我们仔细研究了 RNN 和 LSTM 的结构及其实现。现在我们已经在代码层面理解了它们。首先,本章将使用语言模型进行文本生成。具体来说,就是使用在语料库上训练好的语言模型生成新的文本。然后,我们将了解如何使用改进过的语言模型生成更加自然的文本。通过这项工作,我们可以(简单地)体验基于 AI 的文本创作。另外,本章还会介绍一种结构名为 seq2seq 的新神经网络。原创 2023-04-15 16:59:02 · 886 阅读 · 0 评论 -
第八章 Attention
就图 8-2 的例子来说,输入“猫” 时的 LSTM 层的输出(隐藏状态)受此时输入的单词 “猫” 的影响最大。不过,与我们的简单模型不同,这里可以看到许多为了提高翻译精度而做的改进,比如 LSTM 层的多层化、双向 LSTM(仅编码器的第 1 层)和 skip connection 等。这里重要的是,在这个控制器的外侧有一张 “大纸”(内存)。为了模仿计算机的内存操作,NTM 的内存操作使用了两个 Attention, 分别是 “基于内容的 Attention” 和 “基于位置的 Attention”。原创 2023-04-17 10:46:04 · 475 阅读 · 0 评论