Transformer的前世今生 day02（神经网络语言模型、词向量）

丿罗小黑

已于 2024-03-26 20:50:16 修改

阅读量515

点赞数 9

分类专栏： Transformer 文章标签： transformer 学习人工智能深度学习

于 2024-03-17 23:14:56 首次发布

本文链接：https://blog.csdn.net/u011453680/article/details/136790452

版权

16 篇文章 0 订阅

订阅专栏

神经网络语言模型

使用神经网络的方法，去完成语言模型的两个问题，下图为两层感知机的神经网络语言模型：
假设词典V内有五个词：“判断”、“这个”、“词”、“的”、“词性”，且要输出P(w_next | “判断”、“这个”、“词”、“的”)的概率，即要解决哪一个词放在这句话后面的概率最大的问题。
输入为：W1、W2、W3、W4（前四个单词的独热编码），分别乘随机矩阵，再将结果拼接起来得到C，如下：
再经过两层隐藏层，最后通过一个softmax函数，得到输出结果为词库中所有词，分别填在这个位置的概率。得出最大概率的就是最后一个词“词性”，如下：

用一个向量表示一个单词，独热编码也属于词向量，但是独热编码有两个缺点：尺寸大，不好计算相似度。
但是词向量通过随机矩阵Q可以解决这两个缺点。
获得词向量的过程如下：
假设c1的计算过程如下：
由于之前我们拿独热编码来表示单词，但是我们将独热编码乘Q（随机矩阵）得到的一个向量，也可以表示这个单词
且由于我们的Q矩阵是一个参数，可以学习，即随着模型训练的越来越好，通过Q得到的向量也就越能准确的代表这个单词。
同时我们可以通过矩阵Q来控制输出向量的大小
如上图，c1就是“判断”这个词的词向量
同时，由于两个词的独热编码之间不好计算相似度（有很多0），如采用余弦相似度，结果也为0。但是我们转换成词向量后，结果不再是0，那么就可以一定程度上描述两个词之间的相似度，例如下图：

多层感知机使用了隐藏层和激活函数，是非线性模型
- 隐藏层是对于输出层来说的，只有最后一层全连接层对于输出层是可见的，且最后一层的全连接层一般不带激活函数，所以其他全连接层叫隐藏层
- 激活函数是放在隐藏层中，用来拟合非线性的，常用的激活函数是Sigmoid，Tanh，ReLU，下图为有一层隐藏层的多层感知机：

目的是让计算机认识单词
用矩阵的形式，存储所有单词。且在矩阵中，每一个元素都代表一个单词，这就要求矩阵的行列等于单词数，如下图：
独热编码有两个缺点：
- 矩阵的尺寸很容易过大，因为他需要行列等于单词数
- 相似单词之间的独热编码没有任何关联，通常使用余弦相似度来计算文本之间的相似度，但是现实世界中相似单词之间是有关联的

关注