Convolutional Neural Networks for Speech

最新推荐文章于 2021-06-18 16:31:42 发布

LiFeitengup

最新推荐文章于 2021-06-18 16:31:42 发布

阅读量8.4k

点赞数

本文链接：https://blog.csdn.net/LiFeitengup/article/details/17585931

版权

机器学习同时被 3 个专栏收录

35 篇文章 2 订阅

订阅专栏

Deep Learning

10 篇文章 0 订阅

订阅专栏

Speech

1 篇文章 0 订阅

订阅专栏

总结一下近期所读的CNN文章：

   CNN-1：98-Yann LeCun Gradient-Based Learning Applied to Document Recognition 
  
             介绍CNN比较早的一篇文章，之前有过类似的思想 CNN结构：2(conv+pooling)+conv+2full 
  
 CNN-2：2006-Notes on Convolutional Neural Networks 
  
             CNN的BP推导；其中介绍了Learn conv-conv 之间的连接关系的方法：在objective function上面加入连接关系的稀疏性约束 
  
             试图通过学习得到conv-conv之间的关系——思想类似于 Lasso选feature； 
  
 CNN-3：Hinton-2012-ImageNet Classification with Deep Convolutional Neural Networks 
  
             多层CNN for Image classification；开放了源代码 cuda-convnet 
  
 CNN-4：Author:Abdel Hamid, Hui Jiang -2012-Icassp：Applying Convolutional Neural Networks Concepts To Hybrid NN-HMM Model For Speech Recognition 
  
             可以说是CNN for Speech的“开篇之作”——Yann LeCun 95年有篇CNN for Speech的文章，没看，猜想一下 应该是 讨论频率、时间维度的问题吧； 
  
            CNN结构：1(conv+pooling) three hidden layers 
  
 CNN-5：Author:Abdel Hamid, Li Deng -2013-8月份-InterSpeech：Exploring Conventional Neural Networks Structures and Optimization Techniques for Speech Recognition 
  
             对CNN-4的进一步探索，得出结论Full weight sharing(FWS)比Limited weight sharing(LWS)优 和 pre-train 对CNN效用不如DNN大 
  
            CNN结构：1(conv+pooling) three hidden layers 
  
 CNN-6：Author：Tara N.Sainath-2013：Deep Convolutional Neural Networks For LVCSR 
  
             CNN-4 CNN-5都是只用了一层conv；此文探索了多层conv；得出结论：2conv+4full最优 
  
             其他结论：Feature 方面 VTLN-warped mel FB + d +dd最优 等; 
  
 CNN-7:Author：Tara N.Sainath-2013-9月份：Improvements To Deep Conventional Neural Networks For LVCSR 
  
             对CNN-6的进一步 探索：特征的选择、Pooling的方式等 得出的部分结论 跟CNN-5 不同 
  
             conv+fooling的参数 提了一句话 the number of parameters in the network is kept the same.(with original DNN) 
  
 =========================== 
  
 提到conv-conv都是指(conv+pooling)-(conv+pooling) 
  
 近年的CNN在pooling后不再做其他变换(如：Tanh、Sigmoid) 
  
 CNN在图像、语音方面的不同 
  
         1.pooling方面 语音只在 frequency维上 pooling 不在time维上 pooling 
  
         2.图像做卷积 在边缘不做扩展；语音方面，在一篇论文中看到 在边缘位置卷积上 做了扩展 
  
 CNN for speech的论文CNN-6 CNN-7都没有提到 conv-conv之间的连接关系 难道 Learn conv-conv 之间的连接关系 已经成为标配？ 
  
 CNN bp的难点 1.error的传播 涉及到卷积 和 pooling 需要细致处理 2.conv-conv之间的连接关系 会影响到error的传播流向 
  
 UFLDL在9.25更新了内容，丰富了CNN章节，1(conv+pooling)+1full 
  
 用matlab完成Exercise 
  
  Convolutional Neural Networks 
  
 接下来我想做以下内容： 
  
 0、在CNN for Speech 的输入方面 我还不清楚 VTLN-warped mel FB + d +dd是以类似彩色图像R*G*B三层传入 还是 把mel、d、dd合并成向量 传入2维矩阵（多frame） 
  
 1、可以尝试 1(conv+pooling)+x full for speech 这里在BP的公式推导上 已经没有问题（更倾向完成多层 conv；单层跟多层的代码结构会差很多） 
  
 2、查找信息 确定 conv-conv的连接方式,完成公式推导，去做 x （conv+pooling）+ y full for speech 
  
 3、在用C/C++ 实现CNN for speech 的时候，有效利用kaldi提高的基本功能， 
  
     增加卷积、pooling的GPU实现，以及训练的过程中 有效利用GPU的多线程——多个feature map利用GPU的多线程等 
  
     CNN的训练 计算量要比DNN大得多（矩阵计算比较多） 需要仔细设计代码框架