图像到文字的问题可以看做是一种机器翻译(目前的一种思想),在现在的机器翻译模型中,以LSTM为基础的seq2seq模型成为主流,该模型的基本思想是,对于一个数据pair (A, B)。因为A和B表达的是同一个意思,所以存在某种隐含状态h,使得A和B都对应到h。于是seq2seq模型就先对A进行编码,得到一个数据表示,再基于这个数据表示去解码,生成目标语言的文字。
图像到文字也类似,假设存在某种隐含状态h,图像可以编码到h,而基于h可以生成目标语句。
原博文 https://blog.csdn.net/Hsuliaqing/article/details/104028751
我想的是能不能用骨骼提取来代替这个CNN,LSTM基础的seq2seq不变