对于RNN和CNN怎么结合起来很感兴趣。在吴恩达深度学习课程第五课序列第三周的编程作业TriggerWord中,给出了一个RNN和CNN结合的例子。开头很难理解,仔细分析后终于明白了是怎么回事。记录下来。
下面是结构:
这个模型的输入是(batch,5511,101)的10sec声谱图。输入后经过Conv1D变成了(batch,1375,196)的输出。然后进入GRU。之前一直的疑惑在于,作为时间序列的声谱图为什么经过卷积后仍然可以作为时间序列进入GRU。
仔细分析后搞明白了原委,关键在于Conv1D,既然是1D的卷积,那么卷积核也是1D的,它采样的是15个时间步骤。换句话说,就是用196个卷积核从每个时间步骤周围的15个时间节拍中提取特征。由于Strides=4,实际上生成的1375个输出中,相邻结果的采样是有重叠的。由于是1D的卷积,卷积核也是一步一步向后移动,这样生成的1375个输出也是一个时间序列,从而可以有效连接GRU。
吴恩达深度学习第五课序列中RNN和CNN的结合
最新推荐文章于 2024-04-19 09:43:48 发布