小白看英文论文之BabyTalk: Understanding and Generating Simple Image Descriptions

最新推荐文章于 2022-07-16 17:59:33 发布

关切得大神

最新推荐文章于 2022-07-16 17:59:33 发布

阅读量844

点赞数 1

分类专栏：学习

本文链接：https://blog.csdn.net/qq_41115379/article/details/108741408

版权

学习专栏收录该内容

264 篇文章 17 订阅

订阅专栏

这篇论文算是我看的第一篇专业论文吧（之前本科毕业做毕设的那些基本上不算）
论文的地址在这：
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6522402&tag=1
并且参考了一些csdn上其他大佬的博客：
https://blog.csdn.net/xiao_xian_/article/details/106156860?biz_id=102
（听说这是一份比较经典的论文）
大概看论文的方法，去问了学长（就是前几篇博客里学习提到的学长），一般来说就是在翻译软件(具体软件就因人而异了）的帮助下，结合英文看下去吧，权当练习英语了

系统介绍

这个系统的功能是以自动生成自然语言描述的图像，

并且由两部分组成，第一部分是内容规划，用大量视觉描述文本控制的数据统计，平滑基于计算机视觉的检测和识别算法的输出，从而选到图像最佳内容词，第二部分的话，相当于就是用确定好的词来构成相关联的句子（由此成句）

并且需要在一般语言中，

描述场景的特定信息
描述特定物体以及其相对位置的特定信息。
添加关于物体的额外信息的修饰符。

在这里插入图片描述
以这个为例，那就是首先对图像本身的处理：利用视觉描述自然语言的统计数据对计算机视觉识别算法中存在的噪声输出进行平滑处理。
等图像处理完了之后，就是“表面实现”，寻找词语来描述所选择的内容。

方法概述：

对于输入图像：

1.检测器用于探测物体（如鸟，公共汽车，汽车等）和东西（如草，树，水等），我们将把这些成为物和物，或者统称为物体
2.对于每一个候选对象（东西或东西）区域都由一组属性分类器处理。
3.并对候选区域用介词关系函数处理
4.构造一个CRF(这是一种图像处理的优化方式，具体我也不太了解），这个CRF包含由1-3计算的一元图像点位，以及由大文本语料库计算的高阶文本电位。
5.预测了图形的标记
6.句子生成

在这里插入图片描述
这个就是模型图：首先输入一张图片，再对图片进行对应检测发现候选对象，一个个区分开来，每一个都有对应的attributes(属性），再又分成preposition（介词）(但我目前不知道这个介词咋搞，看文章说是候选对象的关系），再次就是构造CRF来包含一些计算（具体计算内容太细节，好像是可以推测出一句合适对象的词语，然后放入槽中），再开始预测图的标签（用一些连接词，比如 there is）和最后生成的句子(用一些m-gran或者简单一点的模板）。

CRF结构

在这里插入图片描述
看上去像是从多对多变成了一对一这种针对性更强的（按照原话就是，从初始的CRF的三电位变成简化的对势），CRF一般就是由

对象的物或物，
修饰对象外观的属性
介词，表示对象之间的空间关系
这几类。
然后将了一系列我基本上看不懂的内容和一些步骤说明。
并且提到了评估标准，一种是使用标准方法对生成的句子进行评估的自动评估，还有就是通过人工评估将方法和先前的方法之间的结果进行比较。

自动评估：Automatic evaluatios使用了两种自动评估方法，也就是BLEU和ROUGE(虽然都没听过）。BLEU分数主要是衡量机器生成的句子相对人类生成的修正的n-gram精度，但这个一般就是精度很低。
关键在于：论文里的方法倾向于产生比之前的方法更长的描述，而BLEU固有地惩罚了冗长的描述。
在这里插入图片描述
人工评估：强制选择实验的形式，以直接比较PACSAL句子数据集上方法之间的结果。
有三个问题使得实验结果不太好：