《Learning Deep Representations of Fine-Grained Visual Descriptions》论文及代码阅读笔记

最新推荐文章于 2022-06-04 07:17:04 发布

Geek_of_csdn

最新推荐文章于 2022-06-04 07:17:04 发布

阅读量1.9k

点赞数 4

分类专栏：学习笔记机器学习

本文链接：https://blog.csdn.net/Geek_of_CSDN/article/details/80683772

版权

本文是对《Learning Deep Representations of Fine-Grained Visual Descriptions》论文的阅读笔记，介绍了该模型如何通过无监督学习根据文本描述搜索图像。文章详细解析了模型训练目标和优势，并分享了从Torch7模型中提取权重的代码实践，包括Lua和Torch7的使用，以及将模型转换为PyTorch的过程。

摘要由CSDN通过智能技术生成

最近在读这篇文章，顺便记录些东东。。。

论文原题目是《Learning Deep Representations of Fine-Grained Visual Descriptions》（链接），程序在GitHub上有（链接），用了Torch框架（总觉得这个框架的文档有点杂乱。。。有挺多坑要去踩的。。。虽然贫僧觉得caffe坑更加多。。。）来搭神经网络（这个框架主要是用Lua语言，其实和Python有点像，比较容易上手的还是）。

这群人做了什么

训练出了一种无监督学习模型，能够根据你提供的一句话来搜出满足这句话的图像。

模型训练目标

$\frac{1}{N} \sum_{n=1}^{N}\Delta(y_n, f_v(v_n)) + \Delta(y_n, f_t(t_n))$

视觉信息 $\in V$ （这里只是定义，其实用通俗的话来说就是单张图片 $v$ 属于图片数据库 $V$ ），文字描述 $\in T$ 且类别标签 $\in Y$ ，学习函数（就是后面要训练的模型部分） $f_v : V \rightarrow Y$ ， $f_t: T \rightarrow Y$ 。这里的 $N$ 是指数据集中图像-文本对的数量，所以一个图像可以有多个不同的文本描述。

将 $\Delta : Y \times Y \rightarrow R$ ， $\Delta$ 是由 $0$ 和 $1$ 构成的损失函数减小到能够接受的程度的时候就是达到了最后目标了。上面这个公式就是DS-SJE（deep symmetric structured joint embedding），如果只优化 $f_v$ 的话那么就是DA-SJE（deep asymmetric structured joint embedding）（如果是只优化另一个的话也可以，但是作者说还没有看到过有人这么做过）。

更加具体的东东这里就不重复了，看下面参考里面的链接吧。

模型优势

不需要人为标定图片的特征，直接在图片和对应的文本上进行训练就可以达到在人为标定特征的数据集上训练的模型的效果（甚至更好），让模型的适用性更强（毕竟人为标定特征的数据集不多，而且工作量也大，应用起来也不方便）。

相关代码阅读

代码网址看上面给出的链接，这里的代码用了的是Torch来写的，要自己看看lua和torch教程，这里就不展开来说了。

如何从Torch7已经训练好了的模型中提取出权重

内容主要关于如何读取Learning Deep Representations of Fine-grained Visual Descriptions论文配套的模型。

建议：在继续读之前请先初步了解下Lua语言的用法、Torch7的使用方法及Torch7的nnGraph包的基础使用方法（不用太精通啊喂，只要能读懂别人的代码就ok得不行啦。把基本操作过一遍就可以了，遇到不懂的再查）。

1. 读取模型的代码

require 'nn';
require 'cudnn';
require 'cunn';
require 'nngraph';
require 'torch';
m = torch.load('a.t7')

a.t7就是要读取的模型的名字，在执行命令的时候要和模型在同一个目录下（不然就要用到绝对路径）。

1.1 m的keys

val_loss（数字，貌似没什么用）
protos（nn.gModule类型，训练好的模型在这里面）
epoch（应该只是设置相关的数字，可能是每次载入的数据量？）
train_losses（一堆数字，记录了训练过程中的loss）
opt（记录配置目录、数据集目录之类的东东）
val_losses（数字，貌似没什么用）
i（训练总次数，记录用的）

上面table里面的文字记录部分主要是用来计算accuracy和evaluate用的，具体的使用方法看相应的脚本。

1.1 读取CVPR2016中真正的模型

其实就是读取训练好了的网络模型，上面说到的读取模型是指训练网络之后保存的.t7格式文件。

protos = m["protos"]
for key, value in pairs(protos) do
    print(key)
end

2. PyTorch中读取.t7格式的模型

from torch.utils.serialization import load_lua
x = load_lua('x.t7')

实际上因为论文代码训练出来的模型不能用pytorch读取，因为用到了nngraph包。如果想要在pytorch重现结果的话需要自己重新搭建网络，具体网络的搭建方法看train_sje_hybrid.lua里面调用了module文件夹里的什么脚本训练出来的。

3. protos的keys

enc_image
enc_doc

3.1初步读取到模型权重及相关内容

这里只是读取模型的参数。

th> print(protos.enc_doc:parameters())
{
   
  1 : CudaTensor

最低0.47元/天解锁文章

Geek_of_csdn

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录