Few-shot Learning Using a Small-Sized Dataset of High-Resolution FUNDUS Images for Glaucoma阅读笔记

Few-shot Learning Using a Small-Sized Dataset of High-Resolution FUNDUS Images for Glaucoma Diagnosis阅读笔记

ABSTRACT
Few-shot + high resolution

1 INTRODUCTION
在实际应用中,由于深度学习技术对数据的需求,有时会因为过拟合而无法应用,而后者通常是由于数据不足造成的。
小尺寸的高分辨率医学图像数据集
为了克服医学图像的有限性,论文利用了few-shot(少样本)learning +deep learning

2 RELATED WORK
2.1 Few-shot Learning
将网络应用于小尺寸数据集是一个挑战。为了克服这一挑战,谷歌DeepMind在2016年引入了few-shot学习方法[12]。基于 meta-learning [14,15]和记忆增强神经网络(MANNs),如神经图灵机(NTMs;[4]),新引入的方法只需要每个类的几个样本就可以达到训练目的(即一个、五个或十个)

Meta-learning理解:虽然我要做的这个数据集数据很少,但是我有很多其它数据很多的数据集。如果模型可以先在其它数据比较多的数据集上学到这些有关“该如何学习新的知识”的先验知识,由此让模型先学会“如何快速学习一个新的知识”

2.2 Matching Networks MNs
在[16]中介绍了MNs,强调了两个设计方面。
(1)使用了利用余弦相似性和softmax的注意力机制;
(2)采用了测试和训练条件必须匹配的机器学习原则。

2.3 High-Resolution CNNs
大多数以视觉分类任务为目标的深度学习方法都利用各种技术来降低输入图像的维度,包括降低原始图像的分辨率[3]。由于降维可能会导致医学图像中关键特征的丢失,这一观察结果解释了为什么放射科医生更喜欢使用高分辨率图像,深度学习方法的有效性可能会受到影响。为此,[3]的作者决定不对原始图像进行降维,而是依靠CNN层来积极降低其维度。具体来说,通过利用高分辨率的CNN,他们能够提高乳腺癌筛查模型的准确性。

3 ARCHITECTURE
该论文主要解决两个挑战。
(1)将深度学习技术应用于小规模数据集;
(2) 尽可能地保留原始图像的质量。
当把它们输入到嵌入功能中时,为了能够尽量减少有用功能的损失。对于处理小尺寸的 数据集,论文从[16]中介绍的MN入手,为了方便使用高分辨率的医学图像,论文从[3]中介绍的高分辨率CNNs。

3.1 Attention Mechanism(机制)
所采用的注意机制是基于[16]中的注意机制。首先计算cos距离CT 每张例图之间 xi的支持集T = {x1,…。, xn }和一个目标图像xt
在这里插入图片描述
θT为嵌入函数。这个嵌入函数的形式是一个能够处理高分辨率图像的深度CNN,它的后面是一个双向的LSTM。这两种情况下使用了相同的嵌入函数 xi和xt,并利用 softmax 来over余弦距离得到预测标签yt_pred。
在这里插入图片描述
其中yi是xi的对应标签。与[16]中介绍的MN不同,鉴于在验证和测试过程中不需要对未见类进行分类,该模型是参数化的。

model结构:
在这里插入图片描述
图2: five-shot 学习。五张正例图像和五张负例图像被输入到嵌入函数中,分别导致一个正例图像和一个负例图像的嵌入。 与示例图像的数量相反,只有一个目标图像(测试示例)始终被用于任意拍摄学习。

3.2 Embedding Function
嵌入函数由两部分组成。CNN层 和一个双向LSTM层。每个组件都可以选择实现。

3.2.1 CNN Component.
如表1所示,CNN组件是一个深度卷积神经层的堆栈,它能来处理高分辨率的图像。 较低的卷积层和max-pooling层,stride为两到三步。能够积极地降低输入图像的维度。 在经历了所有的层之后,CNN 组件返回一个扁平化的6400-D特征向量。

3.2.2 LSTM Component.
根据输入的情况,不同的LSTM 函数应用于CNN生成的嵌入函数

Table 1: The CNN embedding function used by our predictive model.
在这里插入图片描述
Component:
对于输入图像,在CNN组件的扁平化输出上训练双向LSTM组件д。
对于目标图像,使用前向LSTM分量f。然后,这两个输出都被用于计算余弦距离和后续的softmax。

4 EXPERIMENTS
Paper的重点是研究二分类对小尺寸高分辨率医学图像数据集的有效性。
准确性:(#True Positives + #True Negatives) / #Predictions.
所有方法的训练集有680张图像,验证集有200张图像,测试集有200张图像。

4.1 Experimental Setup
4.1.1 Dataset.
数据集包括1,080个高清晰度的 由韩国三星医学中心提供的FUNDUS RGB图像。
negative,表示没有青光眼,
positive,表示存在青光眼。
每个类别都有540张高分辨率的FUNDUS图像,分辨率从1172×1500到2500×3200不等。
由于图像的大小不一,paper将每张图像中心裁剪成1024×1024大小的attention区域,保持三个RGB通道。 该处理方法没有利用降频,也没有利用灰度转换,所以能够保留原始图像的高保真性质。并且利用中心剪裁,因为诊断青光眼的所有重要特征都位于视盘和黄斑之间。

4.1.2 Training.
(1)Other model:
LeNet[9],图像大小为256×256。
VGG16和Inception ResNet V2。
(2)Our model:
为了缓解过拟合的问题,应用了数据增强。
对输入图像进行了居中裁剪,并最终将其大小调整为三种不同的分辨率(256×256,512×512和1024×1024),保持三个原始颜色通道,从而使得研究图像质量对分类效果的影响成为可能。 建立了一次有数据增强和一次无数据增强的模型。

Table 2: Results obtained by the different predictive models
在这里插入图片描述
与[16]中讨论的ImageNet设置类似,论文利用每类1-shot、5-shot、10-shot和20-shot的方法,从而将每类1、5、10或20个正例图像和每类1、5、10或20个负例图像馈送给嵌入函数,并由该函数随后返回正例图像和负例图像的扁平化特征向量。 与[16]类似,这些特征向量随后被用于使用注意力机制预测未见目标图像的标签(即使用softmax over余弦距离)。损失的计算也如[16]中所述,使用ADAM优化器[6],学习率为0.01。所有的输入都要经过CNN层和可选的LSTM层,然后经过注意力机制。接下来,使用ADAM优化损失,损失是根据最后的输出计算出来的。

4.2 Experimental Results
VGG-16对于给定的数据集表现不佳。
LeNet对相同任务的返回准确率为48.4%。
考虑到数据集的均衡性,VGG-16和LeNet接近于随机猜测。
在所有实验中,Inception ResNet V2获得了最高的准确率,但这种架构通常需要大量的数据增强,[13]中也指出了这一点。
在CNN组件之后使用LSTM层的模型表现不佳
给出的方法Few-shot:
每类样本越多,得到的结果越准确。关于输入图像的大小也可以做出同样的观察:空间分辨率越高,效果越好。

5 CONCLUSIONS AND FUTURE RESEARCH
针对医学图像中的青光眼早期诊断,论文给出的方法在few-shot+高分辨率CNN可以起到较好地结果

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值