隐藏层加监督（feature matching）的代码书写方法---- 附加optim包的功能再看。

最新推荐文章于 2021-08-05 20:48:05 发布

Hungryof

最新推荐文章于 2021-08-05 20:48:05 发布

阅读量2.2k

点赞数

分类专栏： Deep Learning Torch7入门教程文章标签：深度学习

本文链接：https://blog.csdn.net/hungryof/article/details/77062826

版权

本文探讨了在深度学习中如何在隐藏层加入监督，即特征匹配（feature matching）。通过分析neural style和类似RCF的特征匹配方法，强调了正确计算和更新梯度的重要性。介绍了错误的实现思路，并提供了两种有效的feature matching实现方式，特别适合多层FM的情况。

摘要由CSDN通过智能技术生成

总说

这个有难度。一般来说都是最后一层的输入进行构建loss的，得到loss的梯度，然后一层一层进行反传。
但是有时候我们希望在中间层也加入监督，即feature matching。
这里以Torch7代码为例。

net(input)_layerX表示将input输入到net中，net的layerX层的feature maps。
大概总结了一下，有三种类型吧。
1. feature matching的 target不变的类型—neural style是一个很好的例子
2. 类似RCF（richer convolutional features for edge detection）的中间层利用反卷积直接到1个通道或者3个通道的。
3. 真正的feature matching。让 net(input)_layerX和net(target)_layerX尽量一样的。

类似neural style的最简单的feature matching类型

这个算做feature matching有点勉强，不过现在看这个代码可以认为是最简单的一种feature matching。
Torch7学习（七）——Neural-Style代码解析中，文章的最后有一个问题，当时我还不知道怎么回答。现在想想，其实这就是一种最简单的feature matching！
因为neural style中首先要不断改变输入x，进而让VGG(x)_layerX和VGG(content)_layerX尽量一样，如果有多层，就是多层的feature matching。

neural style代码中大多数初学者不懂的一个问题：为啥在自定义的updateGradInput中self.gradInput:add(gradOutput)呢？

在layerX的更新梯度时，有两个梯度来源：一个是后一层往这一层传入的gradOutput，另一个是本层进行feature matching产生的梯度。

function ContentLoss:updateGradInput(input, gradOutput)
  if input:nElement() == self.target:nElement() then
    self.gradInput = self.crit:backward(input, self.target)
  end
  if self.normalize then
    self.gradInput:div(torch.norm(self.gradInput, 1) + 1e-8)
  end
  self.gradInput:mul(self.strength)
  -- 上面self.gradInput正是本层进行feature matching得到的梯度，
  -- 当然还要加上其后一层传过来的梯度，相加后，才能往前传。
  self.gradInput:add(gradOutput)
  return self.gradInput
end

或是以一个“结点”的思维去理解。比如网络的某一层开始分成两道，进行传播，那么反向时，该层往前传的梯度，肯定是两道的梯度进行相加。所以，如果你把这种层内计算的梯度当做是一个分支，该分支直接将本层的输入将VGG(content)_layerX比较，因此得到的梯度要加上另一道的梯度（该层后一层反传过来的梯度）。
neural style的一个小细节就是，它全部的loss都是来自feature matching，这些loss分别代表着不同层次语义特征的差异，需要在不同层次上对整个网路的更新起作用。因此最后一层反传时的gradOutput就是dy设置成全0的tensor！