有关细粒度图像分析(Fine-Grained Image Analysis)

有别于通用图像分析(General/Generic Images)任务,细粒度图像分析(Fine-Grained Image Analysis)任务的所属类别和粒度更为精细,它不仅能在更细分的类别下对物体进行识别,就连相似度极高的同一物种也能区别开来。

 

[references]:

https://www.microsoft.com/en-us/research/wp-content/uploads/2017/07/Look-Closer-to-See-Better-Recurrent-Attention-Convolutional-Neural-Network-for-Fine-grained-Image-Recognition.pdf

https://arxiv.org/pdf/1504.07889v5.pdf

 

细粒度图像分析任务相对通用图像任务的区别和难点在于其图像所属类别的粒度更为精细。按照其使用的监督信息的强弱,分为“基于强监督信息的分类模型”和“基于弱监督信息的分类模型”两大类。“强监督细粒度图像分类”是指在模型训练时,为了获得更好的分类精度,除了图像的类别标签外,还使用了物体标注框(Object Bounding Box)和部位标注点(Part Annotation)等额外的人工标注信息。“强监督细粒度图像分类”信息的标注代价大,所以使用“弱监督细粒度图像分类”的替代方案, 在模型训练时仅使用图像级别标签信息,而不再使用额外的人工标注信息,也能取得与强监督分类模型可比的分类精度。

RA-CNN(Recurrent Attention Convolutional Neural Network)方案采用弱监督细粒度图像分类模型,结构如下:

网络结构主要包含3个scale子网络,每个scale子网络的网络结构都是一样的,只是网络参数不一样,在每个scale子网络中包含两种类型的网络:分类网络和Attention Proposal Network(APN)网络。数据流向为:input通过分类网络提取特征并进行分类,之后APN网络基于提取到的特征进行训练得到attention区域信息,再将attention区域裁剪出来并放大,作为第二个scale网络的输入,这样重复进行3次就能得到3个scale网络的输出结果,融合不同scale网络的输出获取更好的结果。网络可以根据需要叠加多个scale。a1、a2、a3分别表示3个不同的scale网络,b1、b2、b3分别表示3个不同scale网络的卷积层,这些卷积层实现特征提取,具有相同的网络结构。提取到的特征,一面传递给全连接层和softmax层去预测图片的类别概率,另一面通过APN网络d1、d2得到区域信息。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值