理解图像分类和零样本目标识别的区别

最新推荐文章于 2024-08-20 21:42:05 发布

飞向天空的鹰

最新推荐文章于 2024-08-20 21:42:05 发布

阅读量3k

点赞数 1

分类专栏： python学习深度学习

本文链接：https://blog.csdn.net/weixin_42277380/article/details/98769239

版权

python学习同时被 2 个专栏收录

25 篇文章 2 订阅

订阅专栏

深度学习

1 篇文章 0 订阅

订阅专栏

图像分类和零样本目标识别有啥不同？

图像分类

拿12306火车票图片来说吧，总共80种，比如其中一类为红枣，给你100个红枣的图片，尽管这100个红枣的图片千差万别，但都是红枣，机器就拿这100个样本学习并记住其特征,比如红色的、椭圆的，表皮有褶皱的等等。同样，对于另外79种，也一样操作，学习完成了，你给一张图片,给机器识别，机器提取该张图片的特征后，在学习过的80种中间挑出机器认为概率最大的一个。

注意，图片分类，机器识别的结果只能是机器学习过的80种图片中间的一种，如果你给一个80种图片以外的其他图片，机器是无法识别出来的。

零样本图像目标识别

与图像分类不同的是，比如，给你一类猪的图片，100张各种各样的猪,机器学习完成以后，需提取猪的各种特征，如四条腿、大耳朵、2只眼睛，鼻孔很大等等。学习完成以后呢，
给机器一张牛的图片识别，需要机器认出来可能是谁谁谁

Zero-short learning：就是用来解决识别我们的训练样本中从没就没有出现过的样本。但是，虽然训练样本中从来没有出现过该样本，但是却有类似的样本出现过。比如，你的训练样本中包括了很多的猫，而且对猫的描述有比较详尽的描述，那么对于新出现的一类猫虽然在训练样本中没有出现过，但是你还是能够给识别出来。其实就是相对于zero-short learning, one-short learning还是有一些训练样本，但是非常少，甚至是只有一个训练样本。大家都知道，在图像识别领域，想要识别准确率高，同一类的训练样本需要非常多来训练才会使得模型拟合较好。

该类模型主要用于没有足够标签数据的分类问题。

这个在《deep learning》第538至第540页或其中文译本《深度学习》书第458至460页中是有讲述的，当然这个只是在讲迁移学习中简略的讲述了，想要详细了解，可以根据它引用的文献去仔细看看。

https://github.com/exacity/deeplearningbook-chinese

这个是中文版译本的github地址，有兴趣的可以去下载和查看。

图像分类算法很简单，就不用提了,那这个零样本目标识别算法咋整？

零样本图像目标识别的基本思路：
1. 与图片分类已有，对已有样本类别用深度学习模型提取图片特征
2. 对已有图片文字类别名称矢量化 - word2Vec --- 比赛题目中，出题方已经帮大家完成了矢量化的操作，不用自己单独提取。-- 注意，这个矢量化包括学习样本以外的其他类别，如牛这个类别
3. 对以后图片的各个类别做特征标注 - 比赛题目中，出题方已经帮大家完成了各个类别的标注，不用自己手工标注。 --- 注意，这个标注包括学习样本以外的其他类别，如牛这个类别
4. 将每类图片提取出来的特种映射到类别名称矢量或类别特征标注，使得该图片与对应的矢量或特征标注某种距离最小。
5. 完成学习以后，当输入一张新的图片时，深度学习提取图片特征做矢量映射，然后计算该矢量与步骤3或4 的所有类别(包括学习样本的类别以及学习样本以外的类别)的距离，取距离最小的那个类别为识别目标。

胶囊神经网络与普通卷积神经网络到底有啥不同？

具体算法可参见论文，以下仅仅从代码实现角度来做个入门级描述：

普通神经网络(卷积+全连接)训练或预测过程:
输入一张图片
输出一个N维的向量. 其中N是图片类别的个数.N维向量中，每个元素则表示该图片属于第几类的概率.比如第一个元素为0.3,则表示该图片属于第一类的概率为30%,以此类推。

胶囊神经网络(卷积+胶囊)训练或预测过程:
输入一张图片
输出一个N X M维的矩阵. 其中N是图片类别的个数,M是胶囊的维数 - 这个M值根据自己的胶囊模型来定义和选择.在文字识别的网络中，我选择了16.N X M 的矩阵的意义 : 每一行(共N行,每行是个M维的向量)的模或者叫范数或长度,表示该图片属于第几类的概率.比如[1,0.9,0.3,..........],计算一下该向量的平方和再开根号,得到该向量的模，则这个值就是该图片属于第N类的概率。

但这个M维的向量有何意义?

这个向量正是胶囊神经网络的精髓：这个向量代表的该图片的方向和位置、旋转角度，比如图片1算出来的第i个向量为[1,0,0,0,0,0,0,.......],而图片2算出来的第i个向量为[-1,0,0,0,........],这2个向量的模相等，都等于 1，说明这2张图都属于第i个分类。
但注意到图片1和2第一个值符号相反，说明这2张图片是相互左右翻转或上下颠倒或位置有移动。
普通的神经网络理论上也可以达到这个效果，训练时需要运用数据扩增(data augment),但data augment相当于人为增加了训练数据量，训练非常耗时，而且收敛很慢，实测了一下，效果还是比胶囊差很多。