![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
视频总结
文章平均质量分 87
书文的学习记录本
这个作者很懒,什么都没留下…
展开
-
【DASOU视频记录】VIT (Vision Transformer) 模型论文+代码(源码)从零详细解读,看不懂来打我
(DASOU)VIT不涉及到MLM这种形式的任务,只会有一个多分类任务,所以CLS符号不是必须的。DASOU老哥太强了,每次讲的深入浅出,基本上了解ViT咋回事了。tokenization指的是分词,分出来的每一个词语叫做token。一个朴素的输入思路:把图片每个像素点作为一个token输入。CLS:标注句子语义的标注(Classification)将图片切割成patch,一个patch作为一个token。都能达到同样的效果,就是中间的学习率不一样。等DASOU回代码再更,꒰⑅•ᴗ•⑅꒱。原创 2023-07-05 15:45:34 · 307 阅读 · 4 评论 -
【霹雳吧啦Wz】Transformer中Self-Attention以及Multi-Head Attention详解
前天啥也不懂的时候点开来一看,各种模型和公式,直接头大,看完DASOU的视频后,重新来看,串起来了,一下子明白了,霹雳吧啦对细节有了更好的描述。Transformer是2017年Google在Computation and Language上发表的,当时主要是针对自然语言处理领域提出的。如果没有位置编码,输入的顺序改变会导致不同的结果(不同线程抢占可能导致输入顺序改变。这个视频主要用小例子将公式过了一遍,可以用来加深对整体过程细节的认识和把控。多个q、k、v可以叠在一起用矩阵来做。同样可以堆在一起计算。原创 2023-07-05 12:52:05 · 975 阅读 · 0 评论 -
【DASOU视频记录】Transformer从零详细解读
进一步细化的结构,就是多个编码器和多个解码器,每个器件的结构一样,但是具体的参数可以不同,参数是独立训练的。RNN是共享一套W、U、V参数的,所以只能等处理完“我”,才能接下来处理“爱”/“你”,时序的。而transformer并行处理,则需要位置编码告诉网络,“我爱你”三个字之间的位置关系。transformer的具体结构和上面类似。将embedding词向量和位置编码相加。细化容易理解的结构,就是先编码,再解码。多个字,每个字对应一个512维的向量。原创 2023-07-04 16:41:21 · 1036 阅读 · 0 评论 -
【Bubbliiiing视频记录】Pytorch 搭建自己的Unet语义分割平台
语义分割:对图像每个像素点进行分类常见神经网络处理过程:Encoder提取特征,接着Docoder恢复成原图大小的图片。原创 2023-07-03 00:30:00 · 3038 阅读 · 1 评论