【语音识别】Linux下关于语音识别中的resample的问题

先说一下问题背景,之前由于自己购买设备不小心,买了一个双咪头的麦克风,到录音的时候可就费劲了,一会立体声,一会单声道,一会44100kHz,一会16000kHz,反正极其不稳定,为了后续处理方便,我就想直接把所有输入音频都转化为16000kHz,单声道的,虽然好像很简单,但初学还是踩了很多坑。

Resample 和 Stereo 转 Mono

这里本来还想讲讲故事的,但还是算了,直接上干货吧。在寻找解决方法的时候踩了很多坑,但最终领悟了一个道理,小工具还是Linux做的强啊!永远要记住这个真理。

首先说最终的解决途径:

sox infile.wav -r 44100 outfile.wav rate

上述是Linux下解决resample最简单,最容易的方法。直接利用sox解决,在Python中编程也比较好实现,直接用os调用系统命令即可。

然后是Stereo转Mono:

sox infile.wav outfile.wav channels 1

其实这就是全部的解决方案,就是这么简单!我却搞了一天,原因就是我就像用Python编程解决,后来发现,都不靠谱,不过这个过程用还是认识了不少Python下的音频处理工具,比如Scipy、LibROSA、Pydub等等,有兴趣的也可以去学习学习,这里我就是自己记录一下,以免后来忘记。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值