在读SCENE TEXT RECOGNITION VIA GATED CASCADE ATTENTION文章时,根据他提到的参考文献,又读了这5篇, 本身这个文章就是将最新的CBAM结合卷积组成前面论文中的编码器,同时还是链接BLSTM,跟前面的论文也没什么区别。 这篇文章提出了GCAM。这里就不太懂了。由于自己对LSTM GRU了解不太多,只是简单的看了结构,感觉也是根据后面的网络结构改的。这篇文章也没说怎么训练的之类的。以目前自己的水平,代码实现也比较难,同时也谈不了数学上的推导。
简单记录一些在读SCENE TEXT RECOGNITION VIA GATED CASCADE ATTENTION文章时,根据他提到的参考文献,又读了这5篇,本身这个文章就是将最新的CBAM结合卷积组成前面论文中的编码器,同时还是链接BLSTM,跟前面的论文也没什么区别。这篇文章提出了GCAM。这里就不太懂了。由于自己对LSTM GRU了解不太多,只是简单的看了结构,感觉也是根据后面的网络...