如何提取处理YouTube视频中的字幕

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/sunmingliu/article/details/79654882

      经查阅验证,发现以下该链接,可以在线下载视频中的字幕,简洁有效,遂记录:

      http://downsub.com/

      此外,还有一软件叫4K Video Downloader,不过暂时没用过,先记录一下:

      下载的字幕文件为.srt格式,用记事本、nodepad++都可以打开,尝试了一下Word,也可以打开。打开之后发现存在很多无关的信息,如时间轴之类的,额,对于我这个编程小白,偷笑强大的替换功能呀:

      以下步骤摘自点击打开链接:

      1、用word打开srt文件,将两个连续的段落标记(^p^p)替换为+,将一个段落标记替换为=,再将+替换为段落标记,这样srt文件就成为每行显示一句字幕的格式。
2、全选,然后表格---转换---将文字转换为表格,分割标记选择=。选择完=后,上方列数将自动识别文档中的列数,如为3列,则删除头两列,剩下的就是单纯的字幕文字。再把表格转换为文本,分隔符选择段落标记。。若为7列,则删除1、2、5、6列,转换为文本,再用替换的方式去除多余的段落标记。保存即可。
若存在时间轴,可去除。方法:编辑——替换(可以在打开word时直接按CTRL+F),在查找框输入
00:^#^#:^#^#,^#^#^# --> 00:^#^#:^#^#,^#^#^#^p替换框空白,全部替换即可。
       具体流程截图参考:去掉字幕文件里的时间轴信息
       在网上也找到一个用c++实现的小程序,贴个链接以供参考:

      C++实现转换Srt字幕文件为Txt纯文本(Srt转txt,方便打印)   

展开阅读全文

没有更多推荐了,返回首页