python自动关闭弹窗字幕_用Python解决女朋友看电影没字幕的需求-CSDN博客

用Python解决女朋友看电影没字幕的需求

一、故事情节二、开发前的准备工作三、开发过程详细介绍(一)接口规范说明(二)项目开发1、界面部分的实现2、处理音视频功能开发3、发送数据翻译功能的开发四、效果展示五、总结

一、故事情节

是这样子的，女朋友晚上突然翻到了自己喜欢看的一个电影，但是没有字幕，这让她很苦恼。

我急中生智，紧急的解决了我女朋友的需求。

想到了使用Python做一个可以识别语音，然后翻译出来文字的软件。

在这里插入图片描述

如下图就是本片文章所要完成的效果，哈哈，是不是还不错，很棒的样子。

如果有兴趣可以给我点个赞，之后带来更多好玩、有趣的demo和实现的教程。

《甄嬛传》第一集的某一小段：

在这里插入图片描述

其实，是这样子的：

最近剧荒，偶然翻出了曾经下载的电视剧回味一番，经典就是经典，不论是剧情还是台词，都那么有魅力，咦？等等，台词，台词……作为一个IT从业者，我忽然灵光一现——现在语音识别技术这么发达，能否有什么办法能帮我保存下一些精彩桥段的台词呢？或许我也可以是个野生字幕君:p ,似乎也可以在此基础上顺手再翻译一下个别难懂的台词！

略加思索，我大概有了个想法——做个视频中提取音频的程序，而后去请求一个开放的语音识别API来帮我把语音转为文字。鉴于之前调用有道智云的愉快经验，我决定再次拿来为我所用，很快做出了这个demo(请忽略这丑丑的界面布局，能用就行……)。

在这里插入图片描述

欢迎关注我，一块来履行我之前的承诺，连更一个月之内，把几篇写完。

序号

预计完成时间

开发dome名字以及功能&发布文章内容

是否已写完

文章链接

9月3

文本翻译，单文本翻译，批量翻译demo。

已完成

CSDN：

点我直达

公众号：

点我直达

9月11

OCR-demo，完成批量上传识别;在一个demo中可选择不同类型的OCR识别《包含手写体/印刷体/身份证/表格/整题/名片)，然后调用平台能力，具体实现步骤等。

已完成

CSDN：

点我直达

公众号：

10月27

语音识别demo，demo中上传—段视频，并截取视频中短语音识别-demo的一段音频进行短语音识别

CSDN：

微信公众号：

9月17

智能语音评测-demo

CSDN：

微信公众号：

9月24

作文批改-demo

CSDN：

微信公众号：

9月30

语音合成-demo

CSDN：

微信公众号：

10月15

单题拍搜-demo

CSDN：

微信公众号：

10月20

图片翻译-demo

CSDN：

微信公众号：

二、开发前的准备工作

首先，是需要在有道智云的个人页面上创建实例、创建应用、绑定应用和实例，获取调用接口用到的应用的id和密钥。具体个人注册的过程和应用创建过程详见文章不到100行代码搞定Python做OCR识别身份证，文字等各种字体

在这里插入图片描述

三、开发过程详细介绍

下面介绍具体的代码开发过程。

(一)接口规范说明

首先分析有道智云的API输入输出规范。根据文档来看，调用接口格式如下：

有道语音识别API HTTPS地址：

1https://openapi.youdao.com/asrapi

接口调用参数:

字段名

类型

含义

必填

备注

text

要翻译的音频文件的Base64编码字符串

True

必须是Base64编码

langType

text

源语言

True

支持语言

appKey

text

应用 ID

True

可在应用管理查看

salt

text

UUID

True

UUID

curtime

text

时间戳(秒)

true

秒数

sign

text

签名，通过md5(应用ID+q+salt+curTime+密钥)生成

True

应用ID+q+salt+curTime+密钥的MD5值

signType

text

签名版本

True

format

text

语音文件的格式，wav

true

wav

rate

text

采样率，推荐 16000 采用率

true

16000

channel

text

声道数，仅支持单声道，请填写固定值1

true

type

text

上传类型，仅支持base64上传，请填写固定值1

true

其中q为base64编码的待识别音频文件，“上传的文件时长不能超过120s，文件大小不能超过10M”，这点需要注意一下。

API的返回内容较为简单：

字段

含义

errorCode

识别结果错误码，一定存在。详细信息参加错误代码列表

result

识别结果，识别成功一定存在

(二)项目开发

这个项目使用python3开发，包括maindow.py，videoprocess.py，srbynetease.py三个文件。

界面部分，使用python自带的tkinter库，提供视频文件选择、时间输入框和确认按钮；

videoprocess.py:来实现在视频的指定时间区间提取音频和处理API返回信息的功能；

srbynetease.py:将处理好的音频发送到短语音识别API并返回结果。

1、界面部分的实现

界面部分代码如下，比较简单。

1root=tk.Tk()

2root.title("netease youdao sr test")

3frm = tk.Frame(root)

4frm.grid(padx='50', pady='50')

6btn_get_file = tk.Button(frm, text='选择待识别视频', command=get_file)

7btn_get_file.grid(row=0, column=0, padx='10', pady='20')

8path_text = tk.Entry(frm, width='40')

9path_text.grid(row=0, column=1)

11start_label=tk.Label(frm,text='开始时刻：')

12start_label.grid(row=1,column=0)

13start_input=tk.Entry(frm)

14start_input.grid(row=1,column=1)

16end_label=tk.Label(frm,text='结束时刻：')

17end_label.grid(row=2,column=0)

18end_input=tk.Entry(frm)

19end_input.grid(row=2,column=1)

21sure_btn=tk.Button(frm, text='开始识别', command=start_sr)

22sure_btn.grid(row=3,column=0,columnspan=3)

23root.mainloop()

其中sure_btn的绑定事件start_sr()做了简单的异常处理，并通过弹窗打印最终的识别结果:

1def start_sr():

2 print(video.video_full_path)

3 if len(path_text.get())==0:

4 sr_result = '未选择文件'

5 else:

6 video.start_time = int(start_input.get())

7 video.end_time = int(end_input.get())

8 sr_result=video.do_sr()

10 tk.messagebox.showinfo("识别结果", sr_result)

2、处理音视频功能开发

(1)在videoprocess.py中，我用到了python的moviepy库来处理视频，按指定起止时间截取视频，提取音频，并按API要求转为base64编码形式：

1def get_audio_base64(self):

2 video_clip=VideoFileClip(self.video_full_path).subclip(self.start_time,self.end_time)

3 audio=video_clip.audio

4 result_path=self.video_full_path.split('.')[0]+'_clip.mp3'

5 audio.write_audiofile(result_path)

6 audio_base64 = base64.b64encode(open(result_path,'rb').read()).decode('utf-8')

7 return audio_base64

(2)处理好的音频文件编码传到封装好的有道智云API调用方法中：

1def do_sr(self):

2 audio_base64=self.get_audio_base64()

3 sr_result=srbynetease.connect(audio_base64)

4 print(sr_result)

5 if sr_result['errorCode']=='0':

6 return sr_result['result']

7 else:

8 return "Something wrong , errorCode:"+sr_result['errorCode']

3、发送数据翻译功能的开发

srbynetease.py中封装的调用方法比较简单，按API文档“组装”好data{}发送即可：

1def connect(audio_base64):

2 data = {}

3 curtime = str(int(time.time()))

4 data['curtime'] = curtime

5 salt = str(uuid.uuid1())

6 signStr = APP_KEY + truncate(audio_base64) + salt + curtime + APP_SECRET

7 sign = encrypt(signStr)

8 data['appKey'] = APP_KEY

9 data['q'] = audio_base64

10 data['salt'] = salt

11 data['sign'] = sign

12 data['signType'] = "v2"

13 data['langType'] = 'zh-CHS'

14 data['rate'] = 16000

15 data['format'] = 'mp3'

16 data['channel'] = 1

17 data['type'] = 1

19 response = do_request(data)

21 return json.loads(str(response.content,'utf-8'))

四、效果展示

随手打开《甄嬛传》第一集的某一小段试试：

在这里插入图片描述

效果可以，断句的一点小瑕疵可以忽略。没想到这短语音识别API博古通今，古文语音识别也这么溜，厉害厉害！

五、总结

一番尝试带我打开了新世界的大门，从今天开始我可以是一个不打字却能搬运字幕的野生字幕君了，后面再有时间可以试试识别完翻译成其他语言的操作，嗯，是技术的力量！

项目地址：https://github.com/LemonQH/SRFromVideo

关注我微信公众号第一时间推送给你哦：

回复菜单，更有好礼，惊喜在等着你。

在这里插入图片描述

快来我粉丝群：每天欢快的玩耍

在这里插入图片描述