论文信息
题目:EoFormer: Edge-Oriented Transformer for Brain Tumor Segmentation
EoFormer:用于脑肿瘤分割的边缘导向的Transformer
源码链接:https://github.com/sd0809/EoFormer
论文创新点
-
面向边缘的Transformer (EoFormer):作者提出了一种新的面向边缘的Transformer结构,专门用于捕获和增强脑肿瘤分割中的边缘信息。这是通过结合CNN和Transformer的优势来实现的,其中CNN结构用于捕获图像中的低级局部特征,而Transformer结构用于建立特征之间的长距离依赖关系,生成高级全局特征。
-
高效混合编码器 (EHE):作者设计了一个名为高效混合编码器的CNN-Transformer编码器,以实现更有效的特征表示。这种编码器平衡了CNN和Transformer的优势,能够有效提取局部和全局信息。特别是,作者引入了扩展的3D高效注意力模块,以降低模型的计算和内存复杂度。
-
边缘锐化模块:为了提供更准确的边缘预测,作者在解码器中设计了两个边缘锐化模块,即**面向边缘的Sobel (EoS)和Laplacian (EoL)**模块。这两个模块通过隐式嵌入Sobel和Laplacian滤波器到卷积层中,增强了特征图中包含的边缘信息。
-
重参数化技术和高效注意力机制:为了提高模型效率,作者引入了重参数化技术和高效注意力机制。这些技术简化了模型架构,减少了推理时间,并使EoFormer在计算上更加高效,同时在BraTS 2020和MedSeg数据集上实现了优于现有最先进方法的性能。
摘要
在MRI图像中准确分割脑肿瘤需要精确检测边缘信息。然而,这一关键信息被现有方法忽视了。在本文中,作者介绍了一种面向边缘的Transformer(EoFormer),专门用于捕获和增强脑肿瘤分割的边缘信息。作者的方法结合了CNN-Transformer编码器,全面提高特征表示能力。CNN结构捕获图像中的低级局部特征,而Transformer结构建立特征之间的长距离依赖关系,生成高级全局特征。此外,作者的方法的解码器使用了两个边缘锐化模块,即面向边缘的Sobel和Laplacian模块,增强了边缘信息。作者还引入了高效的注意力和重参数化技术,使EoFormer在计算上更加高效。在BraTS 2020数据集和私人髓母细胞瘤数据集上的实验结果表明,作者的方法与现有最先进方法相比具有优越性。此外,作者的方法在模型参数有限和FLOPs较低的情况下实现了这一点,使其成为未来研究的有希望的方法。
关键字
脑肿瘤分割 · 面向边缘模块 · Transformer
2 方法
图1(a)展示了提出的EoFormer架构的概述,包括两个组件:(1) EHE编码器和瓶颈,用于捕获低级局部特征并学习全面的特征表示。(2) 一个解码器,它结合了面向边缘的模块以增强特征中的边缘信息。
2.1 高效混合编码器
如图1(a)所示,EHE包括四个阶段,每个阶段由一个特征提取模块和一个下采样模块组成。所有四个特征提取模块都遵循一般Transformer架构的相同范式(见图1(b)),将Transformer中的注意力模块视为令牌混合器。在EHE的前两个阶段,作者使用深度卷积(DWConv)来实例化令牌混合器,称为ConvFormer块。在第三阶段和瓶颈中,作者使用多头自注意力(MSA)来实例化令牌混合器,这是典型的Transformer块。对于每个阶段i,给定输入特征图X,第i个块的输出X’'计算如下:
其中TokenMixer_i(·)对应于DWConv(i ∈ {0, 1})和MSA(i ∈ {2, 3}),Norm(·)表示层归一化,MLP(·)表示多层感知器。作者的方法结合了CNN和Transformer的优势,创建了一个更强大的编码器,可以从输入数据中提取局部和全局信息。作者通过用作者扩展的3D高效注意力替换传统的注意力来解决由3D输入引起的计算和内存复杂度问题。假设输入特征的大小为n,维度为d,输入特征X ∈ R^n×d通过三个线性层生成查询Q ∈ R^n×dk,键K ∈ R^n×dk和值V ∈ R^n×dv。传统的注意力D(·)和高效注意力E(·)计算如下:
其中ρ(·)是softmax激活函数,T代表矩阵转置操作。高效注意力将传统注意力的内存复杂度和计算复杂度从O(n2)和O(dn2)降低到O(dn+d2)和O(nd2),其中d = dv = 2dk。
2.2 面向边缘的Transformer解码器
作者在解码器中设计了EoFormer块(见图1©),它使用作者提出的面向边缘的Sobel模块(EoS)和面向边缘的Laplacian模块(EoL)实例化令牌混合器。每个面向边缘的模块包括一个正常的3×3×3卷积和一个边缘检测路径,从中间特征中提取一阶或二阶空间导数。这种设计允许面向边缘的模块有效地提取特征的边缘和纹理。此外,为了在不牺牲效率的情况下提高分割性能,作者在解码器中引入了重参数化技术。
面向边缘的Sobel模块
作者使用双分支结构,输入特征X同时通过两个不同的分支处理。第一个分支包含一个3×3×3卷积,从输入中提取基本特征。第二个分支负责边缘提取,首先使用C×C×1×1×1卷积来增强X的通道特征之间的交互,然后使用可学习的缩放Sobel滤波器从X中提取一阶微分边缘信息。这个滤波器能够检测三个方向(即水平、垂直和正交方向)的边缘,因此它包括三个滤波器Mx、My和Mz,每个滤波器由3×3×3数组表示。以Mx为例,描述如下:
然后作者对Mx应用一个可学习的缩放矩阵S ∈ RC×1×1×1,允许在每个通道中动态调整缩放因子。从缩放的Sobel-x滤波器提取的特征表示为:
其中‘·’表示逐通道乘法;DWConv_{S·Mx}表示DWConv(·)应用一个S·Mx可学习的缩放滤波器作为其核权重。类似地,Fy和Fz也以相同的方式处理。EoS模块的最终输出,表示为Fsob,为:
面向边缘的Laplacian模块与
仅提取水平、垂直和正交方向边缘的Sobel滤波器不同,Laplacian滤波器可以提取所有方向的边缘。在提取一阶微分边缘信息后,中间特征然后被送入EoL模块以提取二阶微分边缘信息。类似地,从可学习的缩放Laplacian滤波器获得的特征F,以及EoL模块的最终输出,表示为Flap,定义为:
面向边缘模块的重参数化
作者在面向边缘的模块中引入了重参数化[4,5],以提高分割性能,同时保持高效率。具体来说,作者如下解释EoL模块的重参数化:
其中‘*’表示卷积操作,W_{conv}表示卷积的权重,B_{conv}表示偏置,up(·)是空间广播操作,将偏置B ∈ R^{1×C×1×1×1}升级为up(B) ∈ R^{1×C×3×3×3}。在推理阶段,输出特征F由一个正常的3×3×3卷积产生:
3 实验
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。