- 博客(4)
- 收藏
- 关注
原创 循环神经网络
n元语法模型中,单词xt在时间步t的条件概率仅取决于前面n−1个单词。对于时间步t−n−1之前的单词,如果我们想将其可能产生的影响合并到xt上,需要增加n,然而模型参数的数量也会随之呈指数增长,因为词表V需要存储∣V∣n个数字,因此与其将Pxt∣xt−1xt−n1Pxt∣xt−1x1≈Pxt∣ht−1其中ht−1是隐状态。
2024-05-20 22:04:42 758
原创 现代卷积神经网络
幸运的是,现在GPU显存相对充裕,所以现在很少需要跨GPU分解模型(因此,本书的AlexNet模型在这方面与原始论文稍有不同)。因此,如果模型参数没有正确初始化,sigmoid函数可能在正区间内得到几乎为0的梯度,从而使模型无法得到有效的训练。这样的设计要求2个卷积层的输出与输入形状一样,从而使它们可以相加。因此,只有当较复杂的函数类包含较小的函数类时,我们才能确保提高它们的性能。由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上,因此,需要一个更大的卷积窗口来捕获目标。
2024-04-23 20:03:42 838 3
原创 CNN卷积神经网络笔记
在二维互相关运算中,卷积窗口从输入张量的左上角开始,从左到右、从上到下滑动。当卷积窗口滑动到新一个位置时,包含在该窗口中的部分张量与卷积核张量进行按元素相乘,得到的张量再求和得到一个单一的标量值,由此我们得出了这一位置的输出张量值。在如上例子中,输出张量的四个元素由二维互相关运算得到,这个输出高度为。稍后,我们将看到如何通过在图像边界周围填充零来保证有足够的空间移动卷积核,从而保持输出大小不变。在卷积层中,输入张量和核张量通过(,而卷积核窗口(或卷积窗口)的形状由内核的高度和宽度决定(即。
2024-04-23 16:47:21 327
原创 MLP多层感知机笔记
仿射变换是一种带有偏置项的线性变换。softmax回归的模型架构模型通过单个仿射变换将我们的输入直接映射到输出,然后进行softmax操作。如果我们的标签通过仿射变换后确实与我们的输入数据相关,那么这种方法确实足够了。但是,仿射变换中的线性是一个很强的假设。
2024-03-31 19:52:10 520
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人