图像生成文本(一) —— 引入 & 应用 & 评测指标

最新推荐文章于 2024-06-25 00:27:22 发布

hxxjxw

最新推荐文章于 2024-06-25 00:27:22 发布

阅读量826

点赞数

文章标签：图像生成文本深度学习神经网络

本文链接：https://blog.csdn.net/hxxjxw/article/details/108117785

版权

图像生成文本是CNN和RNN的综合应用

CNN用来处理图像，RNN用来处理文本

引入

在深度学习出现之前，我们是没有方法提取出图像中的抽象信息的(抽象信息就指的是图像里有只鸟，图像中是个湖面等)

除此之外呢，深度学习还带来了另一种能力，能够通过循环神经网络去灵活地生成一段有意义的文本

所以，基于这两种限制，我们在deep learning出现之前，做图像生成文本的做法是把它看成是一个检索问题，给定一张图片，从候选句子中选择最匹配的句子

但是这样显然是没有泛化能力的，对新图像没有结果

图像生成文本的应用

①图像搜索

丰富图像搜索元数据，增强搜索效果

之前的做法是，给输入图像计算一个特征，给图片库中中的所有图片计算一个特征，然后选择特征相似度返回最相近的几张图片

有了图像生成文本之后，就可以将图像生成它的文本描述，然后用这些文本去做搜索

用文本去搜索的结果一般来说会比图像搜索的结果要好

②盲人导航

③少儿教育

图像生成文本评测指标

BLEU score

图像检索

人工检测

BLEU

BLEU score就是N-gram match的加权和

N-gram match

match_items / all items in result

如果是1-gram，就是(慕课网)，(深度学习)，(实战)，(值得)，(拥有)，只有(实战)上下不对应，所以是4/5

如果是2-gram，就是(慕课网，深度学习)，(深度学习，实战)，(实战，值得)，(值得，拥有)，那么(深度学习，实战)，(实战，值得)上下不对应，所以是2/4，以此类推