利用ffmpeg和腾讯语音识别开发一款自动字幕添加软件（一）

最新推荐文章于 2024-07-03 23:46:30 发布

电子海图（微信lvxin6136）

最新推荐文章于 2024-07-03 23:46:30 发布

阅读量1.1k

点赞数

文章标签：腾讯语音识别自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l329831342/article/details/105378765

版权

最近在玩自媒体，发现添加字幕很麻烦，所以想自己设计一个自动添加字幕的软件，思路是利用网络上的语音识别引擎进行语音识别，发送音频数据到引擎，返回语音识别数据。
目前市面上的语音识别引擎还是比较多的，主要有百度、腾讯、讯飞，对比之后，发现百度没有录音文件识别，讯飞和腾讯有录音文件的识别，但是讯飞的识别价格比较高，最后选择腾讯的语音识别引擎。

第一步我们需要从视频中分离音频，分离音频我们选择ffmpeg的命令行就可以，人家已经做好了成熟的运行库，拿来主义就可
从视频中分离音频的命令行是

 ffmpeg -i E:\a.mp4 -vn -y  E:\a.mp3

E:\a.mp4 输入视频路径
E:\a.mp3 输出音频路径
-y：应该是覆盖原文件的意思
-vn：是video no 的意思，就是去掉视频的意思。
这样我们就完成了取出音频的工作，取出音频以后，我们还要对音频进行处理，主要是对音频进行重采样，和分割音频，因为几乎所有的语音识别都需要将音频转换为单通道，16k音频，并且上传音频的大小还有限制，所以下一步我们对音频进行处理

第二步，对音频进行重采样重采样的命令

ffmpeg -i  输入音频路径  -ac 1 -ar 16000 -y   导出音频路径

这样我们就完成了音频的重采样。

第三步，我们对音频进行分割，因为腾讯语音识别引擎的要求是识别文件的大小不能超过5M，所以我们要对音频进行切割处理，因为ffmpeg没有找到按大小切割的命令，所以我们按时间进行切割

fmpeg -i  输入音频 -ss  开始时间  -t  结束时间   -y -acodec copy  导出音频

开始时间格式：00:00:10
结束时间格式：00:00:20

这样我们就完成了音频的切割，下一步，我们发送语音到识别引擎进行识别，请关注下一篇文章。

软件已经开发完成，下载地址字幕助手

电子海图（微信lvxin6136）

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

电子海图（微信lvxin6136） 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。