Transformer VS MLP

医学图像分割技术解析

最近一直在看transformer和MLP的论文,对于进行医学图像分割时到底用哪个暂时还没头绪,针对最近看的论文和其他博客总结,我的小结如下:

1 、两者都是如何处理输入图片的

答案:transformer和MLP对输入图片的处理方式都是一样的,具体如下:

①首先对上一级的输出或原图(假设大小均为H*W*3)进行分块(patch)处理,每个patch的大小为P*P*3,所以一共就分成了N个patch,N=HW/p^{2}

②得到N个patch后,对每个大小为p*p*3的patch进行展平(flatten)处理,展成一个长度为3p^{2}的向量。

③N个这样的向量拼接在一起就结合成一个维度是 (N,3p^{2}) 的张量,再把张量通过线性映射到D维,这样最后我们就得到了一个维度是 (N,D) 的张量,它由N  个 1 x D 的向量组成,每个向量我们把它称为1个 token。这个张量才是Transformer或MLP的输入。

现如今,大部分都是通过patch embedding实现的,Patch Embedding 其实就是一个 kernel size = patch size,stride = patch size 的卷积,然后经过一个激活函数和归一化层:

z0​=BN(σ{Convcin→h​​(X, stride =p, kernel size =p)})

2、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值