百度飞浆-语音转文字、语音识别使用过程的问题

最新推荐文章于 2024-05-27 16:57:47 发布

杨建强搞量化

最新推荐文章于 2024-05-27 16:57:47 发布

阅读量1.2k

点赞数 1

分类专栏： AI运用系列文章标签：语音识别 ffmpeg python

本文链接：https://blog.csdn.net/m0_73342199/article/details/128679766

版权

前面讲述了安装时遇到的坑，这次记录使用过程遇到的问题。
首先说下整个脚本的运行过程。
先是将音频文件转化为wav格式，因为转文字时要求这个格式，再获取文件时长，并将文件分段为45秒的临时音频小文件，遍历这些音频小文件并识别为文字，将文字写入文本文件，然后将该文件的所有音频小文件删除。
其中，转化格式和分段都使用了ffmpeg，ffmpeg在py脚本中调用，用os.system()函数，不需要返回值。而获取时长用subprocess.Popen()函数，以获取时长。
刚开始跑通时，提示音频文件的时长不超过500秒，但后来要求不超过50秒。
提示如下：
Please input audio file less then 50 seconds.
保险起见改成了45秒。

遍历和写入文本文件都是一些基本逻辑代码，没什么好说的。
下面贴出来一些关键代码：
转化音频文件格式：os.system('ffmpeg -i {} {} '.format(i, wav_file_name))
获取时长：
p = subprocess.Popen(
'ffprobe -i {} -show_entries format=duration -v quiet -of csv="p=0"'.format(file),
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
shell=True)
out, err = p.communicate()
duration = int(float(out))
切分文件：os.system(