很多时候会需要获取中国大学mooc的字幕,至于为什么要获取,懂得都懂,就不多说了,一下就是获取过程
- 首先打开需要获取字幕的课程,登入啥的
- 打开目标视频
- 按F12,并刷新一下页面
- 点击网络->点击搜索
5.搜索里面搜索
downloadVideoSrt.htm
6.点击出现的结果
7.将框里面的网址复制到浏览器,访问即可下载
说明:
- 我的浏览器为火狐,ctrl+c复制不了,需要右键复制
- 如果搜索不到,刷新一下,还有确定这个视频是有字幕的
如何将下载的字幕整合到一个文件,附上python代码
import os
path = "" #文件夹目录
files= os.listdir(path) #得到文件夹下的所有文件名称
s = []
str =""
for file in files: #遍历文件夹
if not os.path.isdir(file): #判断是否是文件夹,不是文件夹才打开
f = open(path+"/"+file,'r',encoding='utf-8-sig',errors='ignore'); #打开文件
iter_f = iter(f); #创建迭代器
for line in iter_f: #遍历文件,一行行遍历,读取文本
str = str + line
with open("想要把结果放在哪里",'w') as f:
f.write(str)
代码的效果是,把path目录下的所有文件读取,并放到一个文件里面,这个代码有借鉴别人的.然后需要注意的是,字幕的文件格式是带BOM的utf-8(具体百度如何查看txt的编码格式),所以读取文件的时候指定格式为
encoding='utf-8-sig'