Pretrained ViTs Yield Versatile Representations For Medical Images
摘要
- 利用VIT进行医学影像预训练
- 代码链接
方法
研究的主要问题是,原型VIT是否可以用作替代cnn的医疗诊断任务
考虑每种模型类型如何在不同的域、不同的初始化类型以及模型容量范围内执行各种任务
ViTs和cnn在相同条件下完成各种医学图像分析任务
结论
- 如果采用适当的训练协议,vit可以可靠地取代医学2D图像分类上的cnn。更准确地说,vit在一系列医疗分类和分割任务中达到了与cnn相同的性能水平,但它们需要迁移学习才能做到这一点。
- 但由于IMAGENET预训练是cnn的标准方法,因此在实践中不会产生任何额外的成本。
- 医学成像任务的最佳整体性能是使用域内自监督预训练实现的,其中vit比cnn显示出较小的优势。
- 随着数据规模的增长,这种优势预计也会增长。
- 此外,vit具有许多吸引人的特性:它们的规模类似于cnn(或更好),它们缺乏归纳偏差,全局注意力和跳过连接可能会提高性能,并且它们的自注意机制提供了更清晰的显着性。
- 从从业者的角度来看,这些好处足以令人信服地探索vit在医疗领域的使用。
- 最后,现代cnn已经被广泛研究了十多年,而第一个vit出现在不到两年前——ViTs的改进潜力是相当大的