图像分类
文章平均质量分 95
ʚ F【O】ɞ
这个作者很懒,什么都没留下…
展开
-
VIT讲解
在原论文中,作者说参考BERT,在刚刚得到的一堆tokens中插入一个专门用于分类的[class]token,这个[class] token是一个可训练的参数,数据格式和其他token一样都是一个向量,就是一个长度为768的向量,与之前从图片中生成的tokens拼接在一起,Cat([1, 768], [196, 768]) -> [197, 768]。在本文中我们展示了对CNN的这种依赖是不必要的,直接应用于图像块序列的纯Transformer可以在图像分类任务中表现出色。(感官输入)的选择倾向。原创 2023-10-30 21:21:02 · 165 阅读 · 1 评论 -
ConvNeXt网络
在某种程度上,我们的观察结果令人惊讶,而我们的 ConvNeXt 模型本身并不是全新的——在过去十年中,许多设计选择都是单独检查的,但不是集体的。在高层次上,ResNeXt 的指导原则是“使用更多的组,扩展宽度”。Fewer activation functions:Transformer 和 ResNet 块之间的一个小区别是 Transformer 的激活函数更少,如图 4 所示,我们从残差块中删除了所有 GELU 层,除了两个 1 ⇥ 1 层之间的层,复制了 Transformer 块的样式。原创 2023-11-03 20:21:42 · 99 阅读 · 0 评论