Python实现离线音频转文字（时间分隔+区分说话人）

霍姆格雷特

已于 2022-04-07 13:36:43 修改

阅读量4.8k

点赞数 2

分类专栏： Python 语音识别文章标签： python 语音识别讯飞

于 2022-04-07 10:38:17 首次发布

本文链接：https://blog.csdn.net/HOMEGREAT/article/details/123980807

版权

18 篇文章

订阅专栏

1 篇文章

订阅专栏

前阵子因工作原因，需要将一些录音文件转为文字，方便后续记录和摘要。在尝试付费使用了一些成熟的语音识别转写APP后，偶然发现讯飞开放平台有5小时免费时长可领取使用。
虽是免费，但是需要自己编写代码进行使用，于是参考了官网的API使用说明，自己实现了一个python版本的离线音频转写，默认支持普通话和英语。

参考讯飞开放平台上的接口说明和使用demo，输入APPID和密钥后，可访问对应的语音转写接口API，得到转写后的文字数据。
返回数据中包括每一句话的起始点、结束点、说话人、文字内容，所需要做的是对返回的JSON格式数据进行相应的读取，转为可读性高的文本文件。
笔者代码中所做到的，一个是将整段的文本保存下来，不做时间分隔以及说话人区分，便于单人单段演讲或讲话的录音文件转写；另一个是做了时间分隔和说话人区分的版本，便于多人会议或讨论的录音文件转写。
时间分隔的算法思路是，记录上一句话的结束点，如果与当前这一句话的起始点重合（精确到毫秒），说明这两句话是紧密衔接着的，可以拼接在一起。于是设置一个缓冲区存放当前拼接着的文本，如果上下两句不衔接，则将缓冲区内容写入文件，刷新缓冲区，放入当前句子的文本内容。遍历平台返回数据的每一句话，不断更新和写入缓冲区，便实现了整段音频做了时间分隔并写入文件。
两种转写方式的文本均有保存到代码同目录下，保存格式为txt文件。以下为时间分分割版本的截图：