ByteNet原文中的一句话是:
In addition, the distance traversed by forward and backward signals between any input and output tokens corresponds to the fixed depth of the networks and is largely independent of the distance between the tokens. Dependencies over large distances are connected by short paths and can be learnt more easily.
字面上看可以理解为CNN的层数是固定的,而同时dilated convolution极大的扩展了CNN的感受野,使得CNN在克服RNN处理一维时序数据的缺点的同时达到和RNN相匹配的效果。
问题:
该理解正确吗?
为什么之前要使用RNN而不是CNN,现在又可以使用CNN达到更好的效果?
CNN和RNN结构的本质区别是什么(既然现在都知道RNN实际上是不能学习无限长的长期依赖的)?在CNN能够以各种方式扩大感受野和叠加卷积层之后,RNN结构的优势是什么?