文章有些长,建议收藏后慢慢看。
细粒度图像分类仍然是一个可以出文章的课题。做这个方向的人,我觉得可以好好琢磨注意力机制。注意力机制的本质跟人眼的工作原理是相近的,因而可以让机器更智能。
学习就是一个建立知识树的过程。网上有很多文章都只是树身上树干上的一个小枝干,所以不能给你建立一个完整的知识体系树。
今天我这篇文章也只是一个小枝干。
我力争让大家能够窥一斑而知全豹。
Faster-rcnn和RA-CNN两篇文章都是在注意力机制上做文章,前一篇是监督式的,后一篇是半监督的。我觉得半监督学习是一个很有意思的事情。
后一篇篇文章的地址在这里:
论文:Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition
论文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Fu_Look_Closer_to_CVPR_2017_paper.pdf
(1) Faster-rcnn中的RPN。
温故而知新。我还是希望深入浅出的给大家拎一下faster-rcnn的知识脉络。
1、输入与输出。输入是规整化1000*600的图片+标注的框,这个规格是参数,你自己可以指定。指定完后,输入的框的坐标自然做放大或缩小。同时把这个扩大缩小的比例记录下来。在输入的DATA层参数im_info里。算法的输出是目标框坐标和框中的物体名称。
2、RPN的功能。RPN就是根据注意力机制生成候选框的。要讲清楚这个里面的机制,得讲明白两个核心概念:anchor和ROIpooling。
Anchorÿ