图像生成文本(一) —— 引入 & 应用 & 评测指标

图像生成文本是CNN和RNN的综合应用

CNN用来处理图像,RNN用来处理文本


引入

在深度学习出现之前,我们是没有方法提取出图像中的抽象信息的(抽象信息就指的是图像里有只鸟,图像中是个湖面等)

除此之外呢,深度学习还带来了另一种能力,能够通过循环神经网络去灵活地生成一段有意义的文本

所以,基于这两种限制,我们在deep learning出现之前,做图像生成文本的做法是把它看成是一个检索问题,给定一张图片,从候选句子中选择最匹配的句子

但是这样显然是没有泛化能力的, 对新图像没有结果

 

图像生成文本的应用

①图像搜索

丰富图像搜索元数据,增强搜索效果 

之前的做法是,给输入图像计算一个特征,给图片库中中的所有图片计算一个特征,然后选择特征相似度返回最相近的几张图片

有了图像生成文本之后,就可以将图像生成它的文本描述,然后用这些文本去做搜索

用文本去搜索的结果一般来说会比图像搜索的结果要好

②盲人导航

③少儿教育

 

 

图像生成文本评测指标

  • BLEU score

  • 图像检索

  • 人工检测

 

 

BLEU

BLEU score就是N-gram match的加权和

 

N-gram match

match_items / all items in result

如果是1-gram,就是(慕课网),(深度学习),(实战),(值得),(拥有),只有(实战)上下不对应,所以是4/5

如果是2-gram,就是(慕课网,深度学习),(深度学习,实战),(实战,值得),(值得,拥有),那么(深度学习,实战),(实战,值得)上下不对应,所以是2/4,以此类推

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值