InternVid数据集的下载指南

1. InternVid数据集内容

  1. 目前提供了InternVid-10M-FLT。总计76Khours的视频。
  2. 包含视频及其画面caption描述。

2. 下载

安装对应的库

pip install datasets
pip install pytube
huggingface-cli login

2.1 加载数据文件

官方没提供视频来源,只找到了一个jsonl文件。先加载这个文件。

dataset = load_dataset("OpenGVLab/InternVid")
print(dataset)                                                          

会自动从hugging face下载并load,如果是网络问题搜索hf镜像来解决。也可以自己下载好jsonl文件后本地自己一条条读入

另外可能会遇到bug:

请添加图片描述
解决方法
datasets源码里直接修改,修改了File “XXX/lib/python3.9/site-packages/datasets/splits.py”, line 634的name,改为self.name=‘InternVid_10M_FLT’。

load进来数据大概是1000多万条。下面是其中一条的例子:

{"YoutubeID": "HdYoyzCSWyw", "Start_timestamp": "00:03:10.567", "End_timestamp": "00:03:11.200", "Caption": "woman using a computer mouse and keyboard", "UMT-SIM": 0.2793}

包含视频的ID,起始时间和终止时间,对应的描述caption,还有UMT-SIM,一种评价指标。

2.2 下载视频文件

我采用的方法是使用pytube库下载视频。先获取视频的ID,然后下载整段视频,再用opencv库里的函数进行裁剪,然后删除原视频。
有的库貌似可以下载指定时间段的视频,但暂时还没研究出来。
提供一个参考的脚本:

import os
import cv2
import sys
from datasets import load_dataset
import threading
from pytube import YouTube
from pytube.exceptions import VideoPrivate,AgeRestrictedError,VideoUnavailable
from datetime import datetime
def progress(s, chunk, bytes_remaining):
    download_percent = int((s.filesize-bytes_remaining)/s.filesize*100)
    sys.stdout.write(f'\rProgress: {download_percent} %')
    sys.stdout.flush()

def complete(s, file_path):
    print(f'Download complete: {file_path}')

def download_video(youtube_id, custom_filename, start_time, end_time, idx, retry_count=0):
    output_file = 'XXX.mp4'  # 输出文件名
    # 检查文件是否已经存在
    if os.path.exists(output_file):
        print(f'视频 {idx} 已经存在,跳过下载。')
        return
    try:
        youtube_video = YouTube(f'https://www.youtube.com/watch?v={youtube_id}', on_progress_callback=progress, on_complete_callback=complete)
        video_stream = youtube_video.streams.get_highest_resolution()
        # 检查视频大小,如果大于100MB,就跳过这个视频
        if video_stream.filesize_mb > 50 :  # 50MB
            print(f'视频 {idx} 大于50MB,跳过下载。')
            return
        print(f'开始下载,视频{idx}大小为{video_stream.filesize_mb:.2f}MB')# 保留两位小数
        video_path = video_stream.download(output_path=download_path, filename=custom_filename)
        print(f'视频 {idx} 下载完成,保存路径为:{video_path}')
    except Exception as e:  # 添加这一行来捕获所有的异常
        print(f'下载视频 {idx} 时发生了未知错误:{e}')  # 打印出异常的详细信息
        return
    # 将时间戳字符串转换为秒
    start_time = datetime.strptime(start_time, "%H:%M:%S.%f")
    start_time = start_time.hour * 3600 + start_time.minute * 60 + start_time.second + start_time.microsecond / 1e6
    end_time = datetime.strptime(end_time, "%H:%M:%S.%f")
    end_time = end_time.hour * 3600 + end_time.minute * 60 + end_time.second + end_time.microsecond / 1e6
    # 裁剪视频
    cap = cv2.VideoCapture(video_path)
    fps = cap.get(cv2.CAP_PROP_FPS)  # 获取视频的帧率
    start_frame = int(start_time * fps)  # 计算开始帧的位置
    end_frame = int(end_time * fps)  # 计算结束帧的位置

    fourcc = cv2.VideoWriter_fourcc(*'mp4v')  # 定义编码器
    output_file = 'XXX.mp4'  # 输出文件名
    out = cv2.VideoWriter(output_file, fourcc, fps, (int(cap.get(3)), int(cap.get(4))))  # 创建VideoWriter对象

    cap.set(cv2.CAP_PROP_POS_FRAMES, start_frame)  # 设置开始帧的位置
    while cap.isOpened():
        ret, frame = cap.read()
        if ret and int(cap.get(cv2.CAP_PROP_POS_FRAMES)) <= end_frame:
            out.write(frame)
        else:
            break
    # 释放资源
    cap.release()
    out.release()
    # 删除原始视频
    os.remove(video_path)
    print(f'裁剪完毕,已删除原始视频 {idx}')

if __name__ == '__main__':
    dataset = load_dataset("OpenGVLab/InternVid",'InternVid-10M')
    print(dataset)
    # 下载路径
    download_path = './video/'  # 原视频的路径
    # 创建并启动多个线程来下载视频
    threads = []
    for i in range(0,100000,5):
        for j in range(i, min(i+5, 100000)):  # 同时下载
            video_id = dataset["InternVid_10M_FLT"][j]["YoutubeID"]
            start_time = dataset["InternVid_10M_FLT"][j]["Start_timestamp"]
            end_time = dataset["InternVid_10M_FLT"][j]["End_timestamp"]
            custom_filename = video_id + '.mp4'
            thread = threading.Thread(target=download_video, args=(video_id, custom_filename, start_time, end_time, j))
            thread.start()
            threads.append(thread)
        # 等待所有线程完成下载
        for thread in threads:
            thread.join()
    print("所有视频下载并裁剪完成")
  • 11
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值