CNN 语音识别

本文介绍了CNN在语音识别中的应用,包括CNN的两种理解方式:感受野与参数共享,以及如何将语音特征转化为适合CNN处理的特征图。混合DNN-HMM在语音识别上的优势被提及,并详细讨论了如何组织语音特征,如使用Mel滤波器组和ivector。论文中还展示了CNN-TDNNF模型结构,阐述了不同卷积层和TDNN-F块的工作原理,以及参数设置对模型的影响。
摘要由CSDN通过智能技术生成

CNN:两种理解方式:

第一种理解方式:

第一种简化方法:设置感受野(Receptive Field

一张图片是一个三维的张量(宽,高,3个chanel)。

一个神经元不需要看完整的图片,只需要看一小部分就可以了(比如说只需要关注鸟嘴,鸟的眼睛…),每一个神经元只考虑自己的感受野(receptive field)就好了。

一般图像的设置如下图,

  1. 因为在图像里会看全部的chanels,所以讲kernel size(卷积核)的时候只看高×宽(3×3)就好了
  2. 同一个感受野会有一组神经元去观察注意,比如64或者128个
  3. 希望不同感受野之间有高度的重叠
  4. 感受野覆盖整个图片

第二种简化方法:共享参数(Parameter Sharing

比如说都要检测鸟嘴,但在两张图片里鸟嘴出现在不同的位置,其实每个位置都有负责整个感受野的神经元,但是这两个神经元相当于做的事情一样了。所以希望不同感受野的神经元可以共享参数,所以可以让这两个神经元的weight(权重)一样。

一般设置:

每一个感受野有一组神经元去观察注意,比方说64个神经元。那么第一个感受野的第一个神经元跟第二个感受野的第二个神经元共享参数(filter)

 

Receptive Field + Parameter Sharing =Convolutional  Layer

第二种理解方式:

卷积层就是里面有很多的filter,这些filter的大小是3×3×channel tensor,每个filter的作用就是去图片里边抓取一个pattern,假设filter里边的数值已知(其实这些数值就是model的参数,按理说是未知的,需要通过梯度下降找出来)

如上图所示,用橙色的filter去跟图像卷积,得到右下角橘色的,用蓝色的filter去跟图像做同样的操作,得到右下角蓝色的,如果有64filter,那么就得到一个4×4×64fature map644×4的数字),可以把feature map看作另外一张图片,这个图片的channel64(如果想在这个图片的基础上继续卷积的话,filter的高度就得是前一个卷积层的filter

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值