小白看英文论文之BabyTalk: Understanding and Generating Simple Image Descriptions

这篇论文算是我看的第一篇专业论文吧(之前本科毕业做毕设的那些基本上不算)
论文的地址在这:
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6522402&tag=1
并且参考了一些csdn上其他大佬的博客:
https://blog.csdn.net/xiao_xian_/article/details/106156860?biz_id=102
(听说这是一份比较经典的论文)
大概看论文的方法,去问了学长(就是前几篇博客里学习提到的学长),一般来说就是在翻译软件(具体软件就因人而异了)的帮助下,结合英文看下去吧,权当练习英语了

系统介绍

这个系统的功能是以自动生成自然语言描述的图像

并且由两部分组成,第一部分是内容规划,用大量视觉描述文本控制的数据统计,平滑基于计算机视觉的检测和识别算法的输出,从而选到图像最佳内容词,第二部分的话,相当于就是用确定好的词来构成相关联的句子(由此成句)

并且需要在一般语言中,

  1. 描述场景的特定信息
  2. 描述特定物体以及其相对位置的特定信息。
  3. 添加关于物体的额外信息的修饰符。

在这里插入图片描述
以这个为例,那就是首先对图像本身的处理:利用视觉描述自然语言的统计数据对计算机视觉识别算法中存在的噪声输出进行平滑处理。
等图像处理完了之后,就是“表面实现”,寻找词语来描述所选择的内容。

方法概述:

对于输入图像:

1.检测器用于探测物体(如鸟,公共汽车,汽车等)和东西(如草,树,水等),我们将把这些成为物和物,或者统称为物体
2.对于每一个候选对象(东西或东西)区域都由一组属性分类器处理。
3.并对候选区域用介词关系函数处理
4.构造一个CRF(这是一种图像处理的优化方式,具体我也不太了解),这个CRF包含由1-3计算的一元图像点位,以及由大文本语料库计算的高阶文本电位。
5.预测了图形的标记
6.句子生成

在这里插入图片描述
这个就是模型图:首先输入一张图片,再对图片进行对应检测发现候选对象,一个个区分开来,每一个都有对应的attributes(属性),再又分成preposition(介词)(但我目前不知道这个介词咋搞,看文章说是候选对象的关系),再次就是构造CRF来包含一些计算(具体计算内容太细节,好像是可以推测出一句合适对象的词语,然后放入槽中),再开始预测图的标签(用一些连接词,比如 there is)和最后生成的句子(用一些m-gran或者简单一点的模板)。

CRF结构

在这里插入图片描述
看上去像是从多对多变成了一对一这种针对性更强的(按照原话就是,从初始的CRF的三电位变成简化的对势),CRF一般就是由

  1. 对象的物或物,
  2. 修饰对象外观的属性
  3. 介词,表示对象之间的空间关系
    这几类。
    然后将了一系列我基本上看不懂的内容和一些步骤说明。
    并且提到了评估标准,一种是使用标准方法对生成的句子进行评估的自动评估,还有就是通过人工评估将方法和先前的方法之间的结果进行比较。

自动评估:Automatic evaluatios使用了两种自动评估方法,也就是BLEU和ROUGE(虽然都没听过)。BLEU分数主要是衡量机器生成的句子相对人类生成的修正的n-gram精度,但这个一般就是精度很低。
关键在于:论文里的方法倾向于产生比之前的方法更长的描述,而BLEU固有地惩罚了冗长的描述
在这里插入图片描述
人工评估:强制选择实验的形式,以直接比较PACSAL句子数据集上方法之间的结果。
有三个问题使得实验结果不太好

  1. 存在错误的对象检测器
  2. 提出了对象类别错误的检测
  3. 不正确的预测

算是看完了吧,总的来说,大部分都看不懂。。。。继续努力吧哈哈哈

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值