图像生成文本是CNN和RNN的综合应用
CNN用来处理图像,RNN用来处理文本
引入在深度学习出现之前,我们是没有方法提取出图像中的抽象信息的(抽象信息就指的是图像里有只鸟,图像中是个湖面等)
除此之外呢,深度学习还带来了另一种能力,能够通过循环神经网络去灵活地生成一段有意义的文本
所以,基于这两种限制,我们在deep learning出现之前,做图像生成文本的做法是把它看成是一个检索问题,给定一张图片,从候选句子中选择最匹配的句子
但是这样显然是没有泛化能力的, 对新图像没有结果
图像生成文本的应用
①图像搜索
丰富图像搜索元数据,增强搜索效果
之前的做法是,给输入图像计算一个特征,给图片库中中的所有图片计算一个特征,然后选择特征相似度返回最相近的几张图片
有了图像生成文本之后,就可以将图像生成它的文本描述,然后用这些文本去做搜索
用文本去搜索的结果一般来说会比图像搜索的结果要好
②盲人导航
③少儿教育
图像生成文本评测指标
BLEU score
图像检索
人工检测
BLEU
BLEU score就是N-gram match的加权和
N-gram match
match_items / all items in result
如果是1-gram,就是(慕课网),(深度学习),(实战),(值得),(拥有),只有(实战)上下不对应,所以是4/5
如果是2-gram,就是(慕课网,深度学习),(深度学习,实战),(实战,值得),(值得,拥有),那么(深度学习,实战),(实战,值得)上下不对应,所以是2/4,以此类推
图像生成文本(一) —— 引入 & 应用 & 评测指标
最新推荐文章于 2024-06-25 00:27:22 发布