学习目标
1.学习Pycharm
2.阅读文献
学习时间
2023.5.29-2023.6.4
学习产出
1.本周主要在学习Pycharm,跟着视频进行语法学习和实践练习
2.阅读两篇关于Transformer的文章:第一篇是Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective:这篇论文似乎是transformer-based的图像分割模型的开山之作,也叫SETR,收录于CVPR2021。受早期CNN模型的影响,此时的transformer模型也是encoder-decoder这种结构,encoder的功能是学习图像中的语义信息,每次新出一个强力的backbone,就把这个backbone用到encoder中就好了,稳定涨点;而decoder的作用就是将encoder输出的特征图重新采样恢复到原图大小,进而计算loss。
第二篇是SegFormer Simple and Efficient Design for Semantic:Segformer无论是效果还是效率,和SETR相比,进步非常大。SegFormer反思了早期transformer应用于图像分割中出现的一些问题,比如需要位置编码,这使得模型在测试阶段不能接收任意尺度大小的图像,虽然位置编码可以通过插值变多,但这多少损失了性能,且不方便。