论文出处:
模型创新点:
用Transformers的能力进行体积医学图像分割 直接利用3D patches的Transformer编码器组成,并通过跳跃连接到一个基于卷积神经网络(CNN)的解码器
编码器创建一个三维输入(h×W×D×C)的一维序列,通过将其划分为flatten的相同大小的非重叠图片块。使用一个线性层将平面化的图片块投影到一个K维嵌入空间中,该空间在整个transformer中保持不变。此外,为了保留所提取的图片块的空间信息,在投影图片块上加入一个一维可学习的位置嵌入,具体的学习位置可见ViT。位置如下
经过4个encoder 5个decoder
跑了5000轮每轮24个批次
预处理上 我在data__untils文件 中加入了图像增强 最后的测试集dic提高了0.03
测试集训练结果: