字幕切分视频

咆哮的大叔

已于 2023-08-21 12:10:55 修改

阅读量2.1k

点赞数

分类专栏：语音识别文章标签：音视频

于 2023-07-18 16:53:20 首次发布

本文链接：https://blog.csdn.net/jiafeier_555/article/details/131791265

版权

语音识别专栏收录该内容

2 篇文章

订阅专栏

文章介绍了Whisper、WhisperX以及其它几个语音识别模型在处理视频音频时的性能，包括测试视频、模型运行时间、误差统计和应用场景。WhisperX在视频停顿前后可能出现早停或晚停的问题，但能有效处理无语音的嘴动情况。其他如Paraformer提供精确的时间戳，而飞书秒记只提供字幕无时间信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Whisper

仓库地址：
https://github.com/openai/whisper
可用模型信息：
在这里插入图片描述
测试视频：18段，总共447S视频（11段前：有11段开头有停顿的视频）
Tiny: 跑完：142S ，11段前，对0段，18段中，对10段，5段后，对5段。
Large:跑完：941S，11段前，对0段，18段中，对2段，5段后，对4段。
WhisperX：跑完：143S ，11段前，对10段，18段中，对17段，5段后，对5段。
开口说话到，发出音，大概有13，14，12,20,帧左右的误差，也就是说有0.8S左右的误差，所以建议，如果取无声音频，end要往前挪10帧。
有的人，在静默的时候还咧嘴笑一笑
一句话说完，从没有声音到完全闭上嘴，大概有5帧，8帧，10帧左右，大概有0.4S左右的误差。
WhisperX误差统计（单位：秒）：
在这里插入图片描述
总结：1）WhisperX会在视频停顿空语音前，比label都早停顿。缺点：一句话后几个字可能被裁减掉，对我们的影响是浪费不到1秒的原数据。优点：没语音了，嘴没闭的情况可以解决；
2）WhisperX会在视频停顿空语音后，比label都晚停顿。缺点：一句话开头几个字可能被裁减掉，对我们的影响是浪费不到1秒的原数据。优点：说话前，嘴动了，却还没发出声的情况，过滤掉。