前言:这篇文章是根据在知乎上大神的回答改编的,原文链接:https://www.zhihu.com/question/48537863?from=profile_question_card
起因:这几天在speech communication上下载了几篇17年的paper,发现了远场语音识别这个以前没有研究过的方向,比较感兴趣,因此就作个笔记,以后有时间可以回过头来看看。
远场(far-field)语音识别技术难点分析:
难点一:多通道同步采集硬件研发
首先多通道同步采集硬件是研究前端降噪算法的前提,只有先拿到一些麦克风阵列的数据,才能根据实际采集的数据进行算法的研发和调优。目前市面上主流的codec芯片最多支持4通道同步采集,这对于麦克风阵列来说是不够的,比如echo音响,采用了7个麦克风,再加上一个喇叭的参考信号,所以它至少需要8通道同步采集,即2个4通道的codec芯片。为了使两个codec芯片同步,需要一颗FPGA芯片来协助完成,同时麦克风还需要一些配套的模拟滤波放大电路,中间有很多都是经验性的东西,并且在echo以前,消费电子上很少有集成4个麦克风的情况,所以研究的人很少,这也增加了该硬件的研发难度。当然如果仅仅是为了研究可以直接购买一些多通道同步采集设备,节省硬件研发周期。