语音识别:原理

从研究方向上看有人从发音原理入手,有人从听觉原理入手,还有人从声音特征入手。新闻联播主持人发出的声音通过电视系统广播能让上亿人理解这说明电子系统采集的声音数据已经包含了足够让人理解的信息所以把声音数据作为研究对象完全可行。我选择从声音特征入手。

 

咱们都知道声音就是在空气中传播的纵向机械波。纯机械波有相位,强度,频率三种特征,那种特征最关键呢?

在屋子里看电视的人无论距离电视多远都能听懂电视发出的声音由此我们可以判断相位不是关键特征。因为相位和距离有关,接收距离不同接收到的相位也不同同。

同样在屋子里看电视把声音调大些或者调小些我们都能听懂电视发出的声音由此我们可以判断强度也不是关键特征。

只剩下频率了。频率是不是关键特征呢?答案是肯定的。相关证据大家在后边的实验中会看到。

 

绝大多数语音识别软件都是如下流程:1 采集声音样本。 2  测量能量分布。3  搜索匹配词组。

第一步:

声卡会帮助我们采集声音样本。通过调用微软DirectSound接口调用即可。

第二步:

现实中的声音是无数单频波组合的产物。有些频率能量大到占到全部能量的100%,有些频率能量小到占全部能量的0%。当然振幅大的频率起着决定作用。如何测量各个频率的能量呢?常见的方法有两种:1 FFT,快速傅里叶变换。2 Wavelet,小波分析。

FFT是老牌信号分析算法现。缺点是测量分辨率受测不准原理限制。

Wavelet是最近十几年才流行起来的算法。优点是分辨率可以灵活调整缺点是原理晦涩难懂。

如果你不搞通讯信建议你还是站在别人的肩膀上用现成开发包吧。晚些时候我会向提供。

第三步:

这里使用最多的是DTW。简单说就是把第二步中得到的能量分布和已有的能量分布样本一个一个对比能量分布越相似这个样本越可靠。DTW资料不少这里不再多说。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值