深度学习之为什么要“深度”

Why deep?

就像写程序一样,不能把所有程序都放在main里,一层冗余太大,且不能“复用”。

Modularization:模组化,可以用较少的数据获得较好的结果。在第二层里,将第一层的结果作为模型去生成分类器(什么意思?)

正是因为样本不够多,所以才要进行深度学习,如果样本足够多,直接Big Data就可以分类了

模组化-Speech

语音识别的第一阶段

·分类:input -> acostic feature [声学特性], output -> state[状态]

在这里插入图片描述

如图,每次取一个窗,窗不会太大,用声学特性来表示一个窗

第一阶段要做的事情就是,判断每一个声学特性,属于哪一个state

此任务完成后要把state转成phoneme,phoneme再转成文字,还要考虑同音异字的问题等等,日后再进行学习,本文还处于入门阶段。

每一个state都有固定的状态分布,但有一些state是共用分布的,即在程序里,两个指针指向了同一个地址,这叫做tied-state。在DNN之前有一个做法HMM-GMM(链接至他人博客文章),共用部分distribution,比如state A用编号为1,4,6 的Gaussian,State B用编号为1,4,5的Gaussian(每一个Phoneme用Tri-phone的形式表示,如下图)

在这里插入图片描述

所以来看DNN,

DNN的输入就是一个声学特性

DNN的一个输出就是每一个状态的概率

所有的states都共用一个DNN

waveform:波形
spectrogram:光谱图
Filter Bank:过滤器组

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值