使用 Python 和百度语音识别生成视频字幕

最新推荐文章于 2025-03-26 15:10:17 发布

孙亖

最新推荐文章于 2025-03-26 15:10:17 发布

阅读量1.3w

点赞数 37

分类专栏：技术归档文章标签： Python 语音识别视频字幕

本文链接：https://blog.csdn.net/rocshaw/article/details/104040466

版权

文章目录

从视频中提取音频
根据静音对音频分段
使用百度语音识别
- 获取 Access Token
- 使用 Raw 数据进行合成
生成字幕
总结

从视频中提取音频

安装 moviepy

pip install moviepy

根据静音对音频分段

使用音频库 pydub，安装：

pip install pydub

第一种方法：

# 这里silence_thresh是认定小于-70dBFS以下的为silence，发现小于 sound.dBFS * 1.3 部分超过 700毫秒，就进行拆分。这样子分割成一段一段的。
sounds = split_on_silence(sound, min_silence_len = 500, silence_thresh= sound.dBFS * 1.3)


sec = 0
for i in range(len(sounds)):
    s = len(sounds[i])
    sec += s
print('split duration is ', sec)
print('dBFS: {0}, max_dBFS: {1}, duration: {2}, split: {3}'.format(round(sound.dBFS,2),round(sound.max_dBFS,2),sound.duration_seconds,len(sounds)))

感觉分割的时间不对，不好定位，我们换一种方法：

# 通过搜索静音的方法将音频分段
# 参考：https://wqian.net/blog/2018/1128-python-pydub-split-mp3-index.html
timestamp_list = detect_nonsilent(sound,500,sound.dBFS*1.3,1)
 
for i in range(len(timestamp_list)):
    d = timestamp_list[i][1] - timestamp_list[i][0]
    print("Section is :", timesta