一段讯飞、百度等语音识别API无法识别的语音最终解决办法

最新推荐文章于 2023-07-26 12:02:27 发布

tcl2014

最新推荐文章于 2023-07-26 12:02:27 发布

阅读量2k

点赞数

分类专栏：扒词、录音整理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014220286/article/details/104388351

版权

本文记录了一段难以识别的语音处理过程，通过分析音频属性，发现声道问题。使用Audacity进行声道分离和禁用后，成功解决语音识别问题，适用于类似困难的语音识别场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在做语音识别、字幕扒词相关的工作，遇到了一段录音（https://download.csdn.net/download/u014220286/12169183，各位有兴趣的可以下载下来试试），音质什么的和其他处理过的无二异，也是普通话，照常理说应该能识别出来，可为了类似这样的语音丢了工作机会（前一次没重视人工速录交了，后来又遇到了，琢磨了好长时间解决了，过了交稿时间，产生信任危机了，没有机会合作了。）记录下这次的解决过程，希望给你有需要的人帮助。

首先用ffmpeg查看该音频，发现是32是浮点数，立体声，转成16K单声道的，没有解决，后来想到是不是因为噪声的缘故，做了噪声消除后效果依旧；甚至怀疑到了和声音内容有关（两次音频都是和法律相关的），以前也做过庭审的例子，拿出来用ffmpeg查看音频信息，摸索半天发现可能是声道的问题。

找到了问题可能的点，于是在强大的音频处理软件audacity中进行了尝试，具体步骤如下：

在audacity中导入音频，在左侧面板中下拉三角的菜单中选择“分离立体声”，分离好后“禁用”一个声道，然后在菜单中选择“导出”，导出音频，导出的音频就可以识别了。

虽然没有尝试用程序解决

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。