8.28学习日记

最新推荐文章于 2024-09-14 21:53:48 发布

沈柏霜

最新推荐文章于 2024-09-14 21:53:48 发布

阅读量590

点赞数 20

文章标签：学习

本文链接：https://blog.csdn.net/qq_39657313/article/details/141653293

版权

一、Word2Vec模型存在的缺陷

使用Word2Vec存在一个巨大的缺陷，那就是无法解决多义词问题，比如苹果既可以表示吃的苹果，也可以表示苹果公司这个苹果，但是二者词向量相同，这就无法进行区分了，由此提出的ELMo模型就是为了解决这个问题

二、预备知识

在说ELMo模型前，需要了解一些知识：
1.卷积神经网络（顺带了解）
（1）什么是卷积
f(t)*g(t)=J f(T) g(t- T)dT，这就是大名鼎鼎的卷积定理，简而言之，想象卷积是一个信号 𝑔(𝑥)在另一个信号 f(x) 上“滑动”，通过重叠区域的乘积求和来计算结果。这有点像将一个形状（卷积核）压在另一张纸（信号）上，通过移动形状，计算出重叠部分的“匹配程度”。
应用在图像中的原理：卷积核用点乘的方式遍历整个输入图像，提取出输入图像中不同位置的特征。通过使用不同的卷积核，可以提取不同的特征，比如水平边缘、垂直边缘、斜边等等。在这里插入图片描述
卷积操作：
1.将卷积核放置在输入图像的左上角，覆盖3x3的区域。
2.对应位置上的数值进行点乘积（即乘积求和）。
3.得到的结果是特征图（输出图像）中的一个值。
4.然后将卷积核移动到下一位置（通常是向右或向下一个像素），重复上述操作，直到覆盖整个输入图像。
这是一个简单的例子，实际应用中会复杂很多。

2.卷积神经网络，即cnn
架构：图片转载自https://www.bilibili.com/video/BV1fY411H7g8/?spm_id_from=333.788&vd_source=a9d97d4b2b21167009a4ca32983b8e21 在这里插入图片描述
可以形象的看出cnn的架构，假设输入的是一辆车，最后能得到车的品牌
卷积层是很多个上述卷积操作的叠加，最后经过一个激活函数，如relu函数，把获取到的特征中负的变为0，而池化层是为了放大数据的主要特征，能够降低维度。至于为什么下面这张图应该就能看明白。在这里插入图片描述
最后是全连接层，用于将不同的池化结果汇总起来

3.循环神经网络，即RNN
原理：在很多的RNN可视化中，通常会把模型从上到下画出来，看起来像是并联的，但实际上是每一个时间步会根据前一个时间步的状态和当前的输入计算出一个新的隐藏层状态。这个隐藏层状态会在每一个时间步更新，随着时间步的推进，隐藏层状态逐渐包含了整个序列的信息，在序列的最后便包含了所有输入信息的综合表示，这使得RNN能够捕获和记住序列数据的上下文。
缺陷：由于RNN的时间步长可能很长，反向传播会经过许多层。梯度在反向传播过程中可能会逐渐变得非常小，导致早期层的权重几乎没有更新，导致梯度消失。也有可能反向传播时梯度在反向传播过程中迅速增长，导致模型参数更新不稳定。而且，普通RNN的结构是一种短期记忆，因为是根据前一时刻来决定下一时刻。
4.LSTM，长短期记忆网络
与普通的神经网络相比，它增加了一个长记忆链条c（t），可以类比为日记。在这里插入图片描述
先根据当前的输入和上一时刻的输入来判断当前日记中有哪些不必要的记忆，抹除掉矩阵中为0的元素
再根据上一时刻的记忆和当前的输入决定在日记本上增加哪些内容。