《深度学习进阶:自然语言处理》啃书
文章平均质量分 96
《深度学习进阶:自然语言处理》啃书
MangoGO芒狗狗
爱吃芒果
展开
-
关于神经网络,了解这些就够了
关于神经网络,了解这些就够了!从感知机到神经网络,从计算图到矩阵运算,掌握这些就能理解神经网络的基础知识。原创 2024-02-28 23:31:47 · 716 阅读 · 0 评论 -
《深度学习进阶:自然语言处理》第8章 Attention
第8章 Attention。原创 2023-05-28 22:56:25 · 858 阅读 · 4 评论 -
《深度学习进阶:自然语言处理》第7章 基于RNN生成文本
例如,我们将LSTMLM在语料库“you say goobye and i say hello.”进行训练之后,我们将“i”作为文本生成的第一且唯一的提示词,此时模型会输出上图左上角的概率分布,我们将概率最大的单词“say”作为下一个时刻的输入,随即生成上图右上角的概率分布,可见概率最大的单词为"hello"。也可以按照概率分布进行抽样,概率大的单词被选中的可能性大,概率小的单词被选中的可能性小,但是都有可能被选中作为下一时刻的输入,这样语言模型就会生成多种多样的文本。下面介绍使用两个RNN实现的方式。原创 2023-05-26 23:14:05 · 608 阅读 · 2 评论 -
《深度学习进阶:自然语言处理》第6章 Gated RNN
参数更新是依靠输出结果与标签数据的差异求得梯度,并通过反向传播将梯度传递给上游的参数,由此输出结果与标签数据的差异体现出的有效信息被参数学习到。假设词汇量为 V,LSTM 的隐藏状态的维数为H,则Embedding层的权重形状为V×H,Affine层的权重形状为H×V。在PTB数据集上学习语言模型的情况下,当LSTM的层数为2~4时,可以获得比较好的结果。使用RNN的模型中,将Dropout层插入在LSTM层的时序方向上,随着时间的推移,信息会渐渐丢失,因Dropout产生的噪声会随时间成比例地积累。原创 2023-05-09 23:47:40 · 172 阅读 · 0 评论 -
《深度学习进阶:自然语言处理》第5章 RNN
困惑度表示“概率的倒数”。如图5-5左侧的常规CBOW模型所示,窗口为2,窗口内的两个词与输入权重矩阵相乘的结果是想加的,没有保留顺序信息。要基于 BPTT 求梯度,必须在内存中保存各个时刻的RNN层的中间数据,随着时序数据变长,计算机的内存使用量、计算量也会增加,反向传播的梯度也会变得不稳定。由此RNN的输出在自身的循环迭代更新下,记录了之前时刻的输入,是具有记忆能力的神经网络。简单说就是一句话中的某个词发生的概率需要考虑前面所有词的发生概率(后验概率),整个句子发生的概率就是所有词的后验概率的乘积。原创 2023-05-06 00:05:41 · 160 阅读 · 1 评论 -
《深度学习进阶:自然语言处理》第4章 word2vec的高速化
这是典型的多分类问题,解答了“当前单词是什么”的疑问,返回所有单词作为结果的可能性,并且横向对比所有可能性,得出最佳单词。虽然多分类问题得出的结果信息量较大,但最佳单词之外的其他单词的概率作用不大。本章是对第3章的补充,在第3章中介绍的基本原理的基础上,在一些实现的细节上实现计算量的缩减。再回头看看,在多分类的情况下的交叉熵损失函数式(3.2),如果输出层只有两个神经元,则和二分类的式 (4.3) 是完全一致的。对于一组正例与负例的组合,我们将该组内的所有损失相加作为最后的损失。这是非常大的计算量。原创 2023-05-04 20:00:38 · 122 阅读 · 1 评论 -
《深度学习进阶:自然语言处理》第3章 word2vec
基于计数的方法通过对整个语料库的统计数据进行一次学习来获得单词的分布式表示,而基于推理的方法则反复观察语料库的一部分数据进行学习(mini-batch 学习)。输出层的神经元个数需要和单词的个数一致,每个神经元的值对应每个单词的得分,经过softmax函数后就可以得到每个单词作为目标词的概率。基于推理的方法(word2vec)允许参数的增量学习,可以将之前学习到的权重作为下一次学习的初始值,在更新的语料库上继续学习。本章描述的是上一章中提到的单词的分布式表示的新的方法。这意味着神经网络一次只。原创 2023-04-27 00:09:20 · 159 阅读 · 1 评论 -
《深度学习进阶:自然语言处理》第2章 自然语言和单词的分布式表示
理解途径——单词含义。原创 2023-04-24 11:24:11 · 163 阅读 · 1 评论