论文解析《Deep Convolutional Neural Network Features and the Original Image》

最新推荐文章于 2024-05-27 09:41:53 发布

wayen820

最新推荐文章于 2024-05-27 09:41:53 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签： Deep Convolutional Neural Netw

本文链接：https://blog.csdn.net/qq_29573053/article/details/80654708

版权

深度学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

这一篇论文详细分析了人脸识别中CNN网络提取到的features有一些什么样的性质，一般人脸识别中CNN出来后面接一个线性层用交叉熵来分类，这里的features值得就是cnn出来的512或者128维的浮点数组。

文章首先用这个features作为输入，使用LDA来分类，预测头部姿态Yaw,Pitch，和图像媒介，得到下面的结果，可以看到，embeding features还是包含反映面部姿态和原始图像的一些信息的。

那么，同一个人正面图像和侧面图像，得到的features有什么联系呢？作者选取了n个人，每个人有正面图像和侧面图像，用t-sne做了相关度测量，得到了下图，水平坐标是不同人，纵坐标是特征各个维度，可以看到不同的人完全不一样，有些人柱状黄色很多，代表features的正面和侧面没很大变化，有些人变化很大。

这纠结是为什么呢？作者选了两个变化最不明显的两个人（黄色很多），如下图，作者分析到，这是因为这两个人正面和侧面都有比较共同的特征，比如第一个人的眼镜。

除此之外，很多人都显示出了视角上的聚类，每一个视角范围都有一个聚类。并且这个是不是每一个人都有这个特性，并把没有这个特性叫做view-invariant，作者在数据库里面挑选了具备view-invariant的人，和不具备这个的人，然后评估识别率，得到了下面的结果，可以看到具备view-invariant的人明显具备比较好的识别效果。

作者接下同样在不同图像媒介上做了同样的实验，得到一样的结果，也就是说有些人的features里面有媒介信息，有些人没有，同样的原因，这一部分人已经从不同图像媒介里面总结出一般信息了。

到这里回过头来看一下，第一个实验里面用features来判别pitch，yaw，和图像媒介的方法实际并不可行，因为features里面包不包含这些信息其实是看脸的（人）。

接下来作者分析了features距离feature space空间中点距离的性质，一般使用softmax进行分类时，得到的都是一个下图的分类结果（features为二维），图上各个类的中心线为fc的wi，原点为0，类别的区分使用角度判定

作者取了几个离中心点不同距离的人脸，得到下图，发现离中心点越近的图像，质量越差，这里的质量包含图像清晰度，人脸角度，光线等许多因素，质量越差的人脸，判断越困难。

那么岂不是可以用这个信息来筛选出质量比较差的人脸？做为一个face quality assessment的方法？这个值得尝试。

但是这是为什么呢？为什么比较难判断的人脸会距离中心点比较近？看一下softmax用的损失函数：

要最小化这个Ls，就需要最大化后面这个log项，M是batch size，在训练的batch里，比较容易的图像已经跟他对应的类别Wyi方向上靠近了，因此Wyi×f(xi)比较大，而比较难的图像方向可能就是随机的，这样Wyi×f(xi)就很小，甚至是负数，因此为了最大化log里面的分数（分子分母都增大一个数，分数值增加），就只有将后者f(xi)向零压缩，并且将这一信号传递给cnn进行参数调整，使得困难图像得到的f(xi)靠像零。因此使用softmax进行分类的深度网络都是有这个性质的。softmax会把困难或者垃圾数据往原点扔

wayen820

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文解析《Deep Convolutional Neural Network Features and the Original Image》

这一篇论文详细分析了人脸识别中CNN网络提取到的features有一些什么样的性质，一般人脸识别中CNN出来后面接一个线性层用交叉熵来分类，这里的features值得就是cnn出来的512或者128维的浮点数组。文章首先用这个features作为输入，使用LDA来分类，预测头部姿态Yaw,Pitch，和图像媒介，得到下面的结果，可以看到，embeding features还是包含反映面部姿态和原始...
复制链接

扫一扫

专栏目录