![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
deep learning system
文章平均质量分 75
黄昏贩卖机
这个作者很懒,什么都没留下…
展开
-
Attention is all you need
本文中提出了transformer模型,完全依靠attention机制,没有使用循环网络或者卷积网络。Transformer在训练中可以更好的并行化,并且需要更少的训练时间。Transformer可以很好的泛化到其他的任务中。原创 2023-08-22 22:34:19 · 168 阅读 · 0 评论 -
序列模型和循环网络
在以往的模型中,各个输入之间是独立分布的xi之间是相互独立的,同样输出yi之间也是相互独立的。但是在序列模型中,输入输出是一个特定的序列,我们需要用到序列的相关信息。不能把各个输入看作是相互独立的存在。执行序列预测任务,输出依赖于之前的输入。原创 2023-08-16 22:31:40 · 215 阅读 · 0 评论 -
16 dlsys GAN
和有监督的分类工作不同,生成任务的目标更不明确。难以评价生成结果的好坏。原创 2023-08-14 17:29:27 · 368 阅读 · 0 评论 -
15 大模型训练 内存优化
先看GPU结构,我们常说显存的时候,说的一般就是Global memory训练的过程中,我们为了反向传播过程,必须将中间的结果(激活值)存储下来。在训练的过程中,那些会消耗内存呢?对于有N层的神经网络来说,内存的消耗是O(N)的。原创 2023-07-19 16:02:57 · 980 阅读 · 0 评论 -
10 卷积网络 convolutional networks
如果将图片从H∗W∗C拉伸到N∗1的维度,而参数矩阵又是N∗M的大小。N很大,M也很大。整个网络中的参数量会变得巨大。卷积过程,使用一个filter 在整个图片上滑动。当然输入的图象可能有多个channel,输出的图象也可以有更多的channel。原创 2023-07-18 18:58:21 · 160 阅读 · 0 评论 -
4 自动微分 Automatic Differentitaion
上图中从前向后,一步一步计算每个中间值对 x1的偏导,那么计算到 v7,就得到了整个函数对于 x1的偏导。下游节点将上游传来的所有偏导相加 (partial adjoint 我没有很好的翻译方式)其中很多的中间结果可以被重用,就减少了我们的很多开销。反向求导,实际上事对链式法则的运用。原创 2023-07-18 18:23:41 · 102 阅读 · 0 评论 -
12 GPU加速
如果能将数据从global memory 预取到shared memory,将能加快矩阵乘法计算。上图中的预取部分,还可以细化到每隔线程去一部分数据到 shared memory。本文主要讲述了,如何使用GPU加速矩阵乘法。大小的数据取到 sA sB中。每个线程负责计算一小块区域。上图显示了GPU的架构。原创 2023-07-18 16:57:28 · 217 阅读 · 0 评论 -
11 矩阵乘法的CPU上的硬件加速
这里的硬件加速是指,如果依靠算法,可以通过减少访存次数来加速。可以将数据预取到cache来减少访存次数。原创 2023-07-16 23:09:28 · 407 阅读 · 0 评论 -
YOLOV5 训练
windows上安装可以参考这篇。原创 2023-06-09 20:20:19 · 2949 阅读 · 0 评论 -
3 手工推导Neural Networ
如上图,对非线性类边界的数据进行分类一个解决方案是将数据映射到更高维的空间,就变成线性可分的了。ϕ是一个映射函数,将x从一个低维空间映射到高维空间。ϕ可不可以是一个线性函数?ϕxWTx并不能起到将x映射到高维空间的效果。这个函数本质上还是线性的,没有什么变化。原创 2023-05-19 21:11:39 · 371 阅读 · 0 评论 -
2 机器学习知识 Softmax回归 deep learning system
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hcojNuCy-1684499011760)(null)]这个损失函数,不可微,对于optimization是非常不好用的。回到我们的问题,如何计算softmax损失函数的梯度?zi 表示分类为i的概率,将假设函数的输出转为概率。不使用所有的数据来更新参数,每次选择一个。是一个向量,只有y位置为1,其余位置为0。对一个输入为矩阵,输出为标量的函数。是学习率,用来控制更新的步长。,以下为梯度的定义,针对。的每一个元素求偏导。原创 2023-05-19 20:27:09 · 516 阅读 · 0 评论 -
deep learning system 笔记 自动微分 reverse mode AD
上图中从前向后,一步一步计算每个中间值对 x1的偏导,那么计算到 v7,就得到了整个函数对于 x1的偏导。下游节点将上游传来的所有偏导相加 (partial adjoint 我没有很好的翻译方式)其中很多的中间结果可以被重用,就减少了我们的很多开销。反向求导,实际上事对链式法则的运用。原创 2023-05-06 20:06:28 · 407 阅读 · 0 评论