Medical transformer源码解读

樱花的浪漫

已于 2023-02-24 08:44:12 修改

阅读量1.4k

点赞数

分类专栏：图像分割害虫检测+缺陷检测+面向医学的深度学习实战文章标签： transformer 深度学习人工智能计算机视觉神经网络

于 2022-11-06 15:47:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52053775/article/details/127714047

版权

害虫检测+缺陷检测+面向医学的深度学习实战同时被 2 个专栏收录

14 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

17 篇文章

订阅专栏

本文深入探讨Medical Transformer的实现细节，包括数据预处理和网络结构。数据预处理涉及图像裁剪和色彩增强，网络结构重点在于全局和局部特征提取。全局特征通过下采样和Gate Axis Attention提取，局部特征则采用类似方法但不包含位置编码。网络结构中，编码器和解码器结合，用于图像特征的提取和放大，最终输出结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码链接见文末

1.数据预处理

数据预处理部分比较常规，进行了一下裁剪和色彩增强操作，比较简单，不在多说。另外，官方github上提供了数据

2.网络结构

全局特征提取

首先，为了节省运算，经过卷积对特征图进行下采样，下采样至64*64大小，然后将结果输入堆叠的Gate Aixal Attention中，进行特征提取。

Gate Aixal Attention:

Aixal Attention分别对H轴和W轴进行自注意力机制运算，具体过程为:

首先经过线性投影得到q,k,v，需要注意的是q为8个通道,k为8个通道,v为16个通道,因为v要汇集两个轴的信息。
随机初始化可以学习的位置编码r,维度为4,H,W,其中q的维度为1,H,W,K的维度为1,H,W,V的维度为2,H,W
如下图所示，首先求得qk,qr,kr，并对qr和kr使用Gk,Gq抑制因子对qr和kr的影响进行抑制。然后汇集qk和qr、kr的信息,具体为先拼接再求和，最后经过softmax归一化得到注意力权重
求得qkv和qkr,并使用门控抑制因子进行抑制,然后融合特征和位置编码(先拼接再求和)得到注意力计算结果

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

樱花的浪漫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。