做声学相关和语音识别声纹识别的小伙伴或者时域信号很迷茫的小伙伴看过来

对于做声学相关和语音识别声纹识别的小伙伴的一点帮助

有关声学、语音处理、时域信号处理(振动、各类机械波等)

时域信号处理

最近手上的项目在处理振动信号,遇到的问题基本上和声纹识别和语音识别的一样,也大多可以将隔壁领域的方法和算法直接搬过来用,当然要注意的是信号的幅值和频率集中范围等特性,老的仅仅是对谱处理和小波变换和多模态办法已经too old了,无论是在算法效果和后期的故障识别率、信息的分解等问题上都不及现在的很多前沿办法

从上个世纪到现在,可以将整个行业的发展分为3类,第一类是基础的一些时序匹配问题和各种纯数学(谱分析、相关性分析、除了fft的其他数学变换)等方法;第二类是基于建立声学模型和无监督机器学习的办法;最后一类是目前的seq2seq的深度学习的神经网络的有监督学习,及其他多网络的深度学习去直接处理原始的时域信号,直接提取信息转到最后想要的结果上。

除此之外,其他一些声学问题诸如:声源定位,多输入阵列的信息混解(ICA、PCA也即鸡尾酒会问题)、声源还原、回声消除等等问题的办法都可以去好好学学,可以说目前发展的已经比较完备了,只是准确率和结果的质量上的不同了

下面给大家强烈推荐一本书《实时语音处理实践指南》
非常值得学习,绝对会学到很多工程上的办法和新知识。

还有补充一本书《语音信号处理》(韩纪庆编著),也是必看的,有上面那本书里没提到的非常关键的技术(虽然目前最前沿的是ctc和双层knn等端到端的深度学习方式,但一些经典方式还是要会,对于解决特定问题还是要用到)

书籍图片

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值