【语音识别】Linux下关于语音识别中的resample的问题

最新推荐文章于 2023-12-01 15:44:56 发布

顺其灬自然丨

最新推荐文章于 2023-12-01 15:44:56 发布

阅读量512

点赞数 2

分类专栏： Kaldi语音识别文章标签：语音识别 Linux Resample Stereo sox

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38055352/article/details/89456450

版权

Kaldi语音识别专栏收录该内容

9 篇文章 3 订阅

订阅专栏

先说一下问题背景，之前由于自己购买设备不小心，买了一个双咪头的麦克风，到录音的时候可就费劲了，一会立体声，一会单声道，一会44100kHz，一会16000kHz，反正极其不稳定，为了后续处理方便，我就想直接把所有输入音频都转化为16000kHz，单声道的，虽然好像很简单，但初学还是踩了很多坑。

Resample 和 Stereo 转 Mono

这里本来还想讲讲故事的，但还是算了，直接上干货吧。在寻找解决方法的时候踩了很多坑，但最终领悟了一个道理，小工具还是Linux做的强啊！永远要记住这个真理。

首先说最终的解决途径：

sox infile.wav -r 44100 outfile.wav rate

上述是Linux下解决resample最简单，最容易的方法。直接利用sox解决，在Python中编程也比较好实现，直接用os调用系统命令即可。

然后是Stereo转Mono：

sox infile.wav outfile.wav channels 1

其实这就是全部的解决方案，就是这么简单！我却搞了一天，原因就是我就像用Python编程解决，后来发现，都不靠谱，不过这个过程用还是认识了不少Python下的音频处理工具，比如Scipy、LibROSA、Pydub等等，有兴趣的也可以去学习学习，这里我就是自己记录一下，以免后来忘记。

顺其灬自然丨

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【语音识别】Linux下关于语音识别中的resample的问题

先说一下问题背景，之前由于自己购买设备不小心，买了一个双咪头的麦克风，到录音的时候可就费劲了，一会立体声，一会单声道，一会44100kHz，一会16000kHz，反正极其不稳定，为了后续处理方便，我就想直接把所有输入音频都转化为16000kHz，单声道的，虽然好像很简单，但初学还是踩了很多坑。Resample 和 Stereo 转 Mono这里本来还想讲讲故事的，但还是算了，直接上干货吧...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。