B站视频CC字幕提取和转换方法

一. 字幕获取方法

  1. 进入我们下载的视频,此时先关闭CC字幕的显示。
    在这里插入图片描述

  2. 按住f12打开浏览器的开发者工具,切换到network项,然后刷新网页。
    在这里插入图片描述

  3. 刷新后,点击clear清空当前加载的内容。然后再打开CC字幕,就会看到CC字幕加载的json文件。
    在这里插入图片描述

  4. 双击打开这个json文件,将内容复制到本地的一个文件夹里面的记事本中,然后将后缀改为json。
    在这里插入图片描述

在这里插入图片描述

至此,我们就成功获取到字幕的json文件,你也可以以txt文本格式保存或进行翻译和修改。

二. json字幕文件转换为srt字幕文件

  1. 这里提供其中一个写的不错的python程序,可以实现将某文件夹中的json文件批量转换为srt字幕格式。
  2. 复制该程序,仅需要将main中的路径改为存放json文件的路径即可。
  3. 代码如下。
# -- coding: utf-8 --

import json
import math
import os

def convert_json_to_srt(json_files_path):    
    json_files = os.listdir(json_files_path)
    srt_files_path = os.path.join(json_files_path, 'srt') #更改后缀后字幕文件的路径    
    isExists = os.path.exists(srt_files_path)
    if not isExists:
        os.mkdir(srt_files_path)
    
    for json_file in json_files:        
        file_name = json_file.replace(json_file[-5:], '.srt') #改变转换后字幕的后缀
        file = ''  # 这个变量用来保存数据
        i = 1
        # 将此处文件位置进行修改,加上utf-8是为了避免处理中文时报错
        with open(os.path.join(json_files_path, json_file), encoding='utf-8') as f:
            datas = json.load(f)# 加载文件数据
            f.close()
                    
        for data in datas['body']:
            start = data['from']  # 获取开始时间
            stop = data['to']  # 获取结束时间
            content = data['content']  # 获取字幕内容
            file += '{}\n'.format(i)  # 加入序号
            hour = math.floor(start) // 3600
            minute = (math.floor(start) - hour * 3600) // 60
            sec = math.floor(start) - hour * 3600 - minute * 60
            minisec = int(math.modf(start)[0] * 100)  # 处理开始时间
            file += str(hour).zfill(2) + ':' + str(minute).zfill(2) + ':' + str(sec).zfill(2) + ',' + str(minisec).zfill(2)  # 将数字填充0并按照格式写入
            file += ' --> '
            hour = math.floor(stop) // 3600
            minute = (math.floor(stop) - hour * 3600) // 60
            sec = math.floor(stop) - hour * 3600 - minute * 60
            minisec = abs(int(math.modf(stop)[0] * 100 - 1))  # 此处减1是为了防止两个字幕同时出现
            file += str(hour).zfill(2) + ':' + str(minute).zfill(2) + ':' + str(sec).zfill(2) + ',' + str(minisec).zfill(2)
            file += '\n' + content + '\n\n'  # 加入字幕文字
            i += 1
        with open(os.path.join(srt_files_path, file_name), 'w', encoding='utf-8') as f:
            f.write(file)  # 将数据写入文件
                        
if __name__ == '__main__':   
    json_folder_path = 'D:\\video\\化学视频\\test\\src' #json字幕文件的路径(注意路径的格式)
    convert_json_to_srt(json_folder_path)
  1. cmd运行该程序。
    在这里插入图片描述
  2. 运行成功后,在对应的文件目录下生成一个srt文件夹,里面即为转换好的srt文件。
    在这里插入图片描述
  3. 可以发现json文件已经成功转换为srt文件,可以直接将其导入视频中。
    在这里插入图片描述
  • 15
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
【原因】:在某浪app上面看视频,做笔记,发现手动写笔记很麻烦,就想着是不是把音频转成文字。后面就通过工具把屏幕录下来,然后导入到剪映,然后通过语音转文字,弄成字幕,网上搜到的工具,只能提取为srt格式的,字幕比较多,大概有几百行吧,也就意味着要复制粘贴几百次。这是很蛋疼的事情,后面就自己写了个工具,可以提取出来转换成srt和txt的,txt格式的大大减少了复制粘贴的次数。 【开发工具】:VS2022+.net6.0 WPF 【测试过的PC】:Win10 21H2 19044.1415 【使用方式】: 打开软件,选择指定的草稿,既可以解析字幕。然后指定导出的格式,点击导出即可。 【核心分享】 原理是解析剪映的配置文件,字幕是放在一个json里面,没有加密。软件是直接解析这个json文件,大家也可以自己手动打开这个配置文件。 转换的时候,用的是system.text.json 【运行图片】 【运行前,请自行安装.net6的运行环境】 [.net 官网 ]: https://dotnet.microsoft.com/zh-cn/download/dotnet/6.0/runtime ,点击下载桌面版本。 [.net6 x86下载直连] https://download.visualstudio.microsoft.com/download/pr/7977218c-1a01-4b69-a8ec-9d9311a6de5b/4c74f995295be78a9ebe1d5fede8f7f3/windowsdesktop-runtime-6.0.1-win-x86.exe [.net6 x64下载直连] https://download.visualstudio.microsoft.com/download/pr/bf058765-6f71-4971-aee1-15229d8bfb3e/c3366e6b74bec066487cd643f915274d/windowsdesktop-runtime-6.0.1-win-x64.exe

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值