深度学习
文章平均质量分 75
深度学习笔记
黄昏贩卖机
这个作者很懒,什么都没留下…
展开
-
Attention is all you need
本文中提出了transformer模型,完全依靠attention机制,没有使用循环网络或者卷积网络。Transformer在训练中可以更好的并行化,并且需要更少的训练时间。Transformer可以很好的泛化到其他的任务中。原创 2023-08-22 22:34:19 · 161 阅读 · 0 评论 -
self-attention 李宏毅
一般用于输入一个序列,经过模型输出一个序列的如上如图所示,在翻译句子词性的时候,要考虑句子上下文的关系?如何将上下文考虑进去?采用self attention机制,将输入的向量,经过变化输出一个考虑上下文的新的向量也可以进行多次self attention。原创 2022-11-10 21:29:37 · 458 阅读 · 0 评论 -
cs231n--RNN
普通的神经网络会有1个固定的输入维度,经过一系列的隐藏层计算得到一个固定的输出,如不同类别的得分/概率 向量。循环神经网络,可以对序列进行建模,有多种不同的输入输出类型:一对一、一对多、多对一、多对多等。原创 2022-11-10 19:38:24 · 706 阅读 · 0 评论 -
cs231n--CNN 卷积神经网络
全连接层,将一张32323的图像展开成一个向量,然后进行向量的乘法卷积核按照一定的规则在图像上进行滑动,卷积核的深度要和输入居真的深度相同。计算时,使用卷积核和被卷积区域进行点乘,再加上一个 biaswTx+b使用一个卷积核得到一个深度为1的结果,并且activation map的大小变小了。我们可以使用多个卷积核,将结果进行堆叠,拓展结果的深度ConvNet 是一系列的卷积层,其中插入了激活函数。原创 2022-11-09 21:50:14 · 110 阅读 · 0 评论 -
cs231n--正则化与优化
随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。由于批量梯度下降法在更新每一个参数时,都需要所有的训练样本,所以训练过程会随着样本数量的加大而变得异常的缓慢。输出的结果实际上是对所有的训练样本对W求梯度 dw,之后再对所有样本的dw求平均的结果。结合上述两种方案的折中形式。原创 2022-11-09 21:47:51 · 201 阅读 · 0 评论 -
cs231n--深度学习训练方法
几种常见的激活函数。原创 2022-11-02 20:07:37 · 541 阅读 · 0 评论 -
231n--CNN 卷积神经网络
全连接层,将一张32323的图像展开成一个向量,然后进行向量的乘法卷积核按照一定的规则在图像上进行滑动,卷积核的深度要和输入居真的深度相同。计算时,使用卷积核和被卷积区域进行点乘,再加上一个 biaswTx+b使用一个卷积核得到一个深度为1的结果,并且activation map的大小变小了。我们可以使用多个卷积核,将结果进行堆叠,拓展结果的深度ConvNet 是一系列的卷积层,其中插入了激活函数。原创 2022-11-01 08:40:25 · 283 阅读 · 0 评论 -
231n--神经网络和反向传播
神经网络,不再是单纯的单层线性计算,而加入了非线性层也被称为全连接网络或者有时候被称为多层感知机。原创 2022-10-28 20:55:00 · 552 阅读 · 0 评论 -
231n-图像线性分类
另:w 和 b 可以组成一个 m+1 维的向量, 可以构成一个 m维空间的平面。b 是一个偏移量,如果说我们的数据中有更多的狗,狗这一分类的 b 可能会比较大。增加了一个投票过程,选取最接近的K个图像,然后投票,选则投票数组多的一个类别。上面的算法有一点不好,训练是O(1)的复杂度, 预测是O(N)的复杂度。假如说每张图像都只有4个像素,又有三个类别 猫/ 狗 / 船。马汉顿距离的结果和坐标轴相关,欧拉距离和与坐标轴无关。总的loss可以是所有样本loss的均值。原创 2022-10-22 19:41:04 · 330 阅读 · 0 评论