最近一直在看transformer和MLP的论文,对于进行医学图像分割时到底用哪个暂时还没头绪,针对最近看的论文和其他博客总结,我的小结如下:
1 、两者都是如何处理输入图片的
答案:transformer和MLP对输入图片的处理方式都是一样的,具体如下:
①首先对上一级的输出或原图(假设大小均为H*W*3)进行分块(patch)处理,每个patch的大小为P*P*3,所以一共就分成了N个patch,N=。
②得到N个patch后,对每个大小为p*p*3的patch进行展平(flatten)处理,展成一个长度为的向量。
③N个这样的向量拼接在一起就结合成一个维度是 的张量,再把张量通过线性映射到D维,这样最后我们就得到了一个维度是 (N,D) 的张量,它由N 个 1 x D 的向量组成,每个向量我们把它称为1个 token。这个张量才是Transformer或MLP的输入。
现如今,大部分都是通过patch embedding实现的,Patch Embedding 其实就是一个 kernel size = patch size,stride = patch size 的卷积,然后经过一个激活函数和归一化层:
z0=BN(σ{Convcin→h(X, stride =p, kernel size =p)})
2、
医学图像分割技术解析

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



