DeepLearning
文章平均质量分 93
@左左@右右
这个作者很懒,什么都没留下…
展开
-
Swin-transformer详解
这篇论文提出了一个新的 Vision Transformer 叫做 Swin Transformer,它可以被用来作为一个计算机视觉领域一个通用的骨干网络.但是直接把Transformer从 NLP 用到 Vision 是有一些挑战的,这个挑战主要来自于两个方面一个就是尺度上的问题。因为比如说现在有一张街景的图片,里面有很多车和行人,里面的物体都大大小小,那这时候代表同样一个语义的词,比如说行人或者汽车就有非常不同的尺寸,这种现象在 NLP 中就没有。原创 2023-03-20 00:37:59 · 7541 阅读 · 2 评论 -
UNETR 论文精解
本文会结合论文UNETR: Transformers for 3D Medical Image Segmentation和代码深入讲解。阅读这篇文章之前最好了解UNET网络和Transformer网络,我之前的博文有总结过,可以参考下。动手实现基于pytorch框架的UNet模型以及Transformer 代码详解(Pytorch版)推荐阅读的UNETR代码实现本文采用的tamasino52实现的UNETR来讲解的,主要原因是tamasino52主要用pytorch中的API实现,而且只有一个py文件,也比原创 2022-08-14 14:11:12 · 4125 阅读 · 1 评论 -
动手实现基于pytorch框架的UNet模型
前言最近在学习CNN 图像分割相关内容,接触到了UNet 网络,UNet是一个很经典的网络,因其结构像字母U得名,对于一般的图像分割有显著的效果。UNet的网络结构是一个U形结构,左半边是Encoder,右半边是Decoder。Encode部分,下采样不断的增大channel,宽高减半,并提取图像的特征,但是丢弃了图像的位置信息。Decoder 上采样,upconvolution,融合下采样的图像特征并恢复图像的位置信息UNet 结构图关于跟详细的实现内容可以阅读 UNet论文1.首先,图中原创 2021-09-20 01:41:52 · 2149 阅读 · 0 评论 -
Transformer 代码详解(Pytorch版)
前言基于上一篇经典网络架构学习-Transformer的学习,今天我们来使用pytorch 搭建自己的transformer模型,加深对transformer的理解,不仅在NLP领域绕不开transformer,而且在CV领域也是很火热,很多模型都用到了注意力机制。Transformer完整代码安装好pytorch开发环境,可以直接跑的。也可以直接用cpu跑我下面的transformer代码,数据集比较小,在2G内存就够了。# ===============================原创 2022-08-05 23:53:27 · 49627 阅读 · 32 评论 -
经典网络架构学习-ResNet
该论文的四位作者何恺明、张祥雨、任少卿和孙剑如今在人工智能领域里都是响当当的名字,当时他们都是微软亚研的一员。微软亚研是业内为数不多的,能够获得科技巨头持续高投入的纯粹学术机构。ResNet论文被引用数量悄然突破了10万加。更深的神经网络更难训练。我们提出了一个残差学习框架,以减轻训练的网络,这些网络比以前使用的网络要深得多。我们明确地将各层重新表述为学习参考层输入的残差函数(residualfunctions),而不是学习未参考的函数(unreferencedfunctions)。。。。了第一名。...原创 2022-07-21 12:22:24 · 1897 阅读 · 0 评论 -
经典网络学习-ResNet代码实现
基于上一篇理论分析,今天我们探讨学习下ResNet的代码实现,如果没有看过建议先看下。在我写这篇前,我也调研了网上的其他实现,都不如pytorch官方源码实现好,所以官方版本讲解如何实现resNetpytorchresnet源码链接#定义3x3带padding的卷积defconv3x3(in_planes所以,卷积之后,如果要接BN操作,最好是不设置偏置,因为不起作用,而且占显卡内存。...原创 2022-07-20 01:27:06 · 1669 阅读 · 0 评论 -
经典网络架构学习-VGG
本篇博文将介绍一下在ImageNet 2014 年斩获目标定位竞赛的第一名,图像分类竞赛的第二名的网络结构VGG。VGG 是 Visual Geometry Group 的缩写,是这个网络创建者的队名,作者来自牛津大学.VGG论文《Very Deep Convolutional Networks for Large-Scale Image Recognition》作为一篇会议论文在2015年的ICLR大会上发表Visual Geometry Group实验室链接:https://www.robots.ox.原创 2022-07-14 12:42:02 · 4208 阅读 · 0 评论 -
经典网络架构学习-LeNet
前言说起深度学习目标检测算法,就不得不提 LeNet- 5 网络。LeNet-5由LeCun等人提出于1998年提出,是一种用于手写体字符识别的非常高效的卷积神经网络。出自论文《Gradient-Based Learning Applied to Document Recognition》网络结构输入 → 卷积 → 池化 → 卷积 → 池化 → 卷积(全连接) → 全连接 → 输出整个 LeNet-5 网络总共包括7层(不含输入层),分别是:C1、S2、C3、S4、C5、F6、OUTPUT。注意:原创 2022-07-14 12:18:28 · 1705 阅读 · 0 评论 -
经典网络架构学习-Transformer
transformer对刚入门深度学习的我来说,太难懂了,从网上查了很多博客,大多文章都来自The Illustrated Transformer。视频链接。这篇文章的图太生动形象了,容易理解。下面就翻译下这篇文章吧,加深记忆。如果你是刚入门transformer,强烈建议你好好阅读本文或者原文。网上太多基于这篇文章的衍生文章,而且写的并不好懂,你看完这篇文章,在看我给你的链接参考文章,会更容易懂。首先,我们先将模型视为一个黑盒。在机器翻译应用程序中,它将采用一种语言的句子,然后以另一种语言输出其翻译弹翻译 2022-07-13 11:12:22 · 10486 阅读 · 2 评论 -
YOLO-Universal Anatomical Landmark Detection论文精读
论文《You Only Learn Once: Universal Anatomical LandmarkDetection》提出了一个通用的解剖地标检测的架构模型。You Only Learn Once(你只学一次),这个是一个新的概念,我的理解就是:我们可以不用为某一个数据集单独学习或者构建模型,而是可以混合所有数据集,然后进行一次学习就够了。而且论文作者说了,在这项工作中,是第一个提出基于一次学习,并开发一个通用的模型在混合数据集上实现端对端的多个地标检测任务。定性和定量的实验结果表明,我们提出的模原创 2022-07-12 23:24:15 · 867 阅读 · 0 评论 -
可分离卷积(Separable convolution)详解
可分离卷积包括空间可分离卷积(Spatially Separable Convolutions)和深度可分离卷积(depthwise separable convolution)。原创 2022-07-12 19:23:36 · 14255 阅读 · 0 评论