模型框架
以encoder-decoder模型为基础
encoder由LSTM换成了CNN
因为输入由文本换成了图片
encoder输入是图片,decoder输出是文本的概率分布
根据概率去选择词,组成一个合适的文本
但是每次取概率最高的(贪心)并不是可取的做法
![]()
例如这样情况下这样取才是最优的
所以这里我们就需要用beam search集束搜索,每一步取top-n的结果
- 每一步取top-n结果
- 下一步依靠上一步的top-n结果在n^2的结果里选择top-n
- 生成top-n路径
- 用单独的语言模型测评top-n路径
例如
BOS是一个特殊字符,代表了一个句子的开端
得到4条比较合适的路径之后,我们将它输入到语言模型中去,进行进一步的评测,看四条路经生成的语句是否是通顺的
图像生成文本(二) —— Encoder-Decoder模型框架 & Beam Search算法生成文本
于 2020-08-22 23:25:41 首次发布