Deep speaker这篇文章有很多细节没有描述,加上没有官方的源代码,导致要实现很难。
这篇文章主要是写一下ResCNN Input的结构,这个应该是很多人迷惑的地方。
由于一开始没有经验,因此代码是参考github上的开源代码:https://github.com/philipperemy/deep-speaker
因此思路一直被这篇代码的结构给困住了,其实RecCNN的Input和这个开源代码有很大的区别(这是我和论文作者李超博士交流后自己的理解,我觉得还是蛮有把握的)
我的理解,在Keras中,Input的维度应该是 n*f*h*c,其中n是batchsize