论文解析《Deep Convolutional Neural Network Features and the Original Image》

这一篇论文详细分析了人脸识别中CNN网络提取到的features有一些什么样的性质,一般人脸识别中CNN出来后面接一个线性层用交叉熵来分类,这里的features值得就是cnn出来的512或者128维的浮点数组。

文章首先用这个features作为输入,使用LDA来分类,预测头部姿态Yaw,Pitch,和图像媒介,得到下面的结果,可以看到,embeding features还是包含反映面部姿态和原始图像的一些信息的。



那么,同一个人正面图像和侧面图像,得到的features有什么联系呢?作者选取了n个人,每个人有正面图像和侧面图像,用t-sne做了相关度测量,得到了下图,水平坐标是不同人,纵坐标是特征各个维度,可以看到不同的人完全不一样,有些人柱状黄色很多,代表features的正面和侧面没很大变化,有些人变化很大。


这纠结是为什么呢?作者选了两个变化最不明显的两个人(黄色很多),如下图,作者分析到,这是因为这两个人正面和侧面都有比较共同的特征,比如第一个人的眼镜。


除此之外,很多人都显示出了视角上的聚类,每一个视角范围都有一个聚类。并且这个是不是每一个人都有这个特性,并把没有这个特性叫做view-invariant,作者在数据库里面挑选了具备view-invariant的人,和不具备这个的人,然后评估识别率,得到了下面的结果,可以看到具备view-invariant的人明显具备比较好的识别效果。


作者接下同样在不同图像媒介上做了同样的实验,得到一样的结果,也就是说有些人的features里面有媒介信息,有些人没有,同样的原因,这一部分人已经从不同图像媒介里面总结出一般信息了。

到这里回过头来看一下,第一个实验里面用features来判别pitch,yaw,和图像媒介的方法实际并不可行,因为features里面包不包含这些信息其实是看脸的(人)。

接下来作者分析了features距离feature space空间中点距离的性质,一般使用softmax进行分类时,得到的都是一个下图的分类结果(features为二维),图上各个类的中心线为fc的wi,原点为0,类别的区分使用角度判定


作者取了几个离中心点不同距离的人脸,得到下图,发现离中心点越近的图像,质量越差,这里的质量包含图像清晰度,人脸角度,光线等许多因素,质量越差的人脸,判断越困难。


那么岂不是可以用这个信息来筛选出质量比较差的人脸?做为一个face quality assessment的方法?这个值得尝试。

但是这是为什么呢?为什么比较难判断的人脸会距离中心点比较近?看一下softmax用的损失函数:


要最小化这个Ls,就需要最大化后面这个log项,M是batch size,在训练的batch里,比较容易的图像已经跟他对应的类别Wyi方向上靠近了,因此Wyi×f(xi)比较大,而比较难的图像方向可能就是随机的,这样Wyi×f(xi)就很小,甚至是负数,因此为了最大化log里面的分数(分子分母都增大一个数,分数值增加),就只有将后者f(xi)向零压缩,并且将这一信号传递给cnn进行参数调整,使得困难图像得到的f(xi)靠像零。因此使用softmax进行分类的深度网络都是有这个性质的。softmax会把困难或者垃圾数据往原点扔

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值