总结一下近期所读的CNN文章:
CNN-1:98-Yann LeCun Gradient-Based Learning Applied to Document Recognition
介绍CNN比较早的一篇文章,之前有过类似的思想 CNN结构:2(conv+pooling)+conv+2full
CNN-2:2006-Notes on Convolutional Neural Networks
CNN的BP推导;其中介绍了Learn conv-conv 之间的连接关系的方法:在objective function上面加入连接关系的稀疏性约束
试图通过学习得到conv-conv之间的关系——思想类似于 Lasso选feature;
CNN-3:Hinton-2012-ImageNet Classification with Deep Convolutional Neural Networks
多层CNN for Image classification;开放了源代码 cuda-convnet
CNN-4:Author:Abdel Hamid, Hui Jiang -2012-Icassp:Applying Convolutional Neural Networks Concepts To Hybrid NN-HMM Model For Speech Recognition
可以说是CNN for Speech的“开篇之作”——Yann LeCun 95年有篇CNN for Speech的文章,没看,猜想一下 应该是 讨论频率、时间维度的问题吧;
CNN结构:1(conv+pooling) three hidden layers
CNN-5:Author:Abdel Hamid, Li Deng -2013-8月份-InterSpeech:Exploring Conventional Neural Networks Structures and Optimization Techniques for Speech Recognition
对CNN-4的进一步探索,得出结论Full weight sharing(FWS)比Limited weight sharing(LWS)优 和 pre-train 对CNN效用不如DNN大
CNN结构:1(conv+pooling) three hidden layers
CNN-6:Author:Tara N.Sainath-2013:Deep Convolutional Neural Networks For LVCSR
CNN-4 CNN-5都是只用了一层conv;此文探索了多层conv;得出结论:2conv+4full最优
其他结论:Feature 方面 VTLN-warped mel FB + d +dd最优 等;
CNN-7:Author:Tara N.Sainath-2013-9月份:Improvements To Deep Conventional Neural Networks For LVCSR
对CNN-6的进一步 探索:特征的选择、Pooling的方式等 得出的部分结论 跟CNN-5 不同
conv+fooling的参数 提了一句话 the number of parameters in the network is kept the same.(with original DNN)
===========================
提到conv-conv都是指(conv+pooling)-(conv+pooling)
近年的CNN在pooling后不再做其他变换(如:Tanh、Sigmoid)
CNN在图像、语音方面的不同
1.pooling方面 语音只在 frequency维上 pooling 不在time维上 pooling
2.图像做卷积 在边缘不做扩展;语音方面,在一篇论文中看到 在边缘位置卷积上 做了扩展
CNN for speech的论文CNN-6 CNN-7都没有提到 conv-conv之间的连接关系 难道 Learn conv-conv 之间的连接关系 已经成为标配?
CNN bp的难点 1.error的传播 涉及到卷积 和 pooling 需要细致处理 2.conv-conv之间的连接关系 会影响到error的传播流向
UFLDL在9.25更新了内容,丰富了CNN章节,1(conv+pooling)+1full
用matlab完成Exercise
Convolutional Neural Networks
接下来我想做以下内容:
0、在CNN for Speech 的输入方面 我还不清楚 VTLN-warped mel FB + d +dd是以类似彩色图像R*G*B三层传入 还是 把mel、d、dd合并成向量 传入2维矩阵(多frame)
1、可以尝试 1(conv+pooling)+x full for speech 这里在BP的公式推导上 已经没有问题(更倾向完成多层 conv;单层跟多层的代码结构会差很多)
2、查找信息 确定 conv-conv的连接方式,完成公式推导,去做 x (conv+pooling)+ y full for speech
3、在用C/C++ 实现CNN for speech 的时候,有效利用kaldi提高的基本功能,
增加卷积、pooling的GPU实现,以及训练的过程中 有效利用GPU的多线程——多个feature map利用GPU的多线程等
CNN的训练 计算量要比DNN大得多(矩阵计算比较多) 需要仔细设计代码框架
介绍CNN比较早的一篇文章,之前有过类似的思想 CNN结构:2(conv+pooling)+conv+2full
CNN-2:2006-Notes on Convolutional Neural Networks
CNN的BP推导;其中介绍了Learn conv-conv 之间的连接关系的方法:在objective function上面加入连接关系的稀疏性约束
试图通过学习得到conv-conv之间的关系——思想类似于 Lasso选feature;
CNN-3:Hinton-2012-ImageNet Classification with Deep Convolutional Neural Networks
多层CNN for Image classification;开放了源代码 cuda-convnet
CNN-4:Author:Abdel Hamid, Hui Jiang -2012-Icassp:Applying Convolutional Neural Networks Concepts To Hybrid NN-HMM Model For Speech Recognition
可以说是CNN for Speech的“开篇之作”——Yann LeCun 95年有篇CNN for Speech的文章,没看,猜想一下 应该是 讨论频率、时间维度的问题吧;
CNN结构:1(conv+pooling) three hidden layers
CNN-5:Author:Abdel Hamid, Li Deng -2013-8月份-InterSpeech:Exploring Conventional Neural Networks Structures and Optimization Techniques for Speech Recognition
对CNN-4的进一步探索,得出结论Full weight sharing(FWS)比Limited weight sharing(LWS)优 和 pre-train 对CNN效用不如DNN大
CNN结构:1(conv+pooling) three hidden layers
CNN-6:Author:Tara N.Sainath-2013:Deep Convolutional Neural Networks For LVCSR
CNN-4 CNN-5都是只用了一层conv;此文探索了多层conv;得出结论:2conv+4full最优
其他结论:Feature 方面 VTLN-warped mel FB + d +dd最优 等;
CNN-7:Author:Tara N.Sainath-2013-9月份:Improvements To Deep Conventional Neural Networks For LVCSR
对CNN-6的进一步 探索:特征的选择、Pooling的方式等 得出的部分结论 跟CNN-5 不同
conv+fooling的参数 提了一句话 the number of parameters in the network is kept the same.(with original DNN)
===========================
提到conv-conv都是指(conv+pooling)-(conv+pooling)
近年的CNN在pooling后不再做其他变换(如:Tanh、Sigmoid)
CNN在图像、语音方面的不同
1.pooling方面 语音只在 frequency维上 pooling 不在time维上 pooling
2.图像做卷积 在边缘不做扩展;语音方面,在一篇论文中看到 在边缘位置卷积上 做了扩展
CNN for speech的论文CNN-6 CNN-7都没有提到 conv-conv之间的连接关系 难道 Learn conv-conv 之间的连接关系 已经成为标配?
CNN bp的难点 1.error的传播 涉及到卷积 和 pooling 需要细致处理 2.conv-conv之间的连接关系 会影响到error的传播流向
UFLDL在9.25更新了内容,丰富了CNN章节,1(conv+pooling)+1full
用matlab完成Exercise
Convolutional Neural Networks
接下来我想做以下内容:
0、在CNN for Speech 的输入方面 我还不清楚 VTLN-warped mel FB + d +dd是以类似彩色图像R*G*B三层传入 还是 把mel、d、dd合并成向量 传入2维矩阵(多frame)
1、可以尝试 1(conv+pooling)+x full for speech 这里在BP的公式推导上 已经没有问题(更倾向完成多层 conv;单层跟多层的代码结构会差很多)
2、查找信息 确定 conv-conv的连接方式,完成公式推导,去做 x (conv+pooling)+ y full for speech
3、在用C/C++ 实现CNN for speech 的时候,有效利用kaldi提高的基本功能,
增加卷积、pooling的GPU实现,以及训练的过程中 有效利用GPU的多线程——多个feature map利用GPU的多线程等
CNN的训练 计算量要比DNN大得多(矩阵计算比较多) 需要仔细设计代码框架