图像转文字的技术叫做image Caption。image caption的网络结构其实是基于encoder_decoder结构的。
Image caption将Decoder中的rnn网络换成了cnn网络,将decoder中的rnn网络换成了lstm网络。
网络结构如下图所示:
两个改进的方向:
1. 引入注意力机制
2. 引入高层语义模型
图像转文字的技术叫做image Caption。image caption的网络结构其实是基于encoder_decoder结构的。
Image caption将Decoder中的rnn网络换成了cnn网络,将decoder中的rnn网络换成了lstm网络。
网络结构如下图所示:
两个改进的方向:
1. 引入注意力机制
2. 引入高层语义模型