多任务深度学习论文阅读

最新推荐文章于 2024-08-18 12:39:23 发布

Yan_Joy

最新推荐文章于 2024-08-18 12:39:23 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签：深度学习

本文链接：https://blog.csdn.net/Yan_Joy/article/details/69424720

版权

机器学习专栏收录该内容

27 篇文章 0 订阅

订阅专栏

Deep Learning Face Representation by Joint Identification-Verification

这篇论文主要是针对人脸识别，分为两个任务：

face identification task
face verification task

前者目的是增大类间间距，即不同人的差距；后者是为了减小类内差距，即相同人在不同环境下的差异。
在网络的设计中，最终生成的DeepID2是由conv3和conv4融合得到的，反映了不同层的特征信息。其中conv4设置了权重在神经元间不共享，即不同位置的卷积核不同（locally-connected layer）。
fig1

Identification

这个任务采用的是传统的softmax n分类器，直接跟在DeepID2后面，以交叉熵为损失函数。
fig2

Verification

目的是让从同一个人提取的DeepID2特征类似，从而降低类内的差距。其约束条件可以是L1、L2范数或余弦相似度，其计算分别为：
fig3
fig4
值得注意的是，公式中出现了两个图片输入（ $f_i$ 、 $f_j$ ），当为同类时， $y_{ij}=1$ 否则为-1，从而提供了类内与类间两种损失。

梯度更新

fig5
梯度更新有一点疑惑的是最后更新参数不应该是使用参数的梯度去相减吗？

Text-Attentional Convolutional Neural Network for Scene Text Detection

这一篇是讲文字识别（其实是找到哪里是文字）。为了解决这一个看起来简单的问题，加了两个较为复杂的辅助任务。

网络结构

fig6

看到这个输入我是有点震惊的，网络输入是32*32的图片，主要任务是输出是否为字符，辅助任务是字符分割和字符分类（感觉是辅助带大哥飞啊= =）。
整个网络解决了三个问题：where（区域回归，或是字符分割）、what（字符分类）、whether（是否为字符），其中前两个较为困难，最后的也是最主要的比较简单。