InternVid数据集的下载指南

传说故事

已于 2024-02-05 17:26:12 修改

阅读量1.4k

点赞数 15

分类专栏：其他文章标签： python 大数据人工智能计算机视觉

于 2024-01-02 15:01:54 首次发布

本文链接：https://blog.csdn.net/qq_43854103/article/details/134884707

版权

其他专栏收录该内容

3 篇文章

订阅专栏

本文介绍了如何使用Python和相关库（如pipinstalldatasets,pytube,cv2等）处理InternVid数据集，包括下载包含caption描述的视频文件，以及使用pytube下载并裁剪特定时间段的视频内容。作者还分享了解决下载过程中可能遇到的问题和脚本示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. InternVid数据集内容

目前提供了InternVid-10M-FLT。总计76Khours的视频。
包含视频及其画面caption描述。

2. 下载

安装对应的库

pip install datasets
pip install pytube
huggingface-cli login

2.1 加载数据文件

官方没提供视频来源，只找到了一个jsonl文件。先加载这个文件。

dataset = load_dataset("OpenGVLab/InternVid")
print(dataset)

会自动从hugging face下载并load，如果是网络问题搜索hf镜像来解决。也可以自己下载好jsonl文件后本地自己一条条读入

另外可能会遇到bug：

请添加图片描述
解决方法：
datasets源码里直接修改，修改了File “XXX/lib/python3.9/site-packages/datasets/splits.py”, line 634的name，改为self.name=‘InternVid_10M_FLT’。

load进来数据大概是1000多万条。下面是其中一条的例子：

{"YoutubeID": "HdYoyzCSWyw", "Start_timestamp": "00:03:10.567", "End_timestamp": "00:03:11.200", "Caption": "woman using a computer mouse and keyboard", "UMT-SIM": 0.2793}

包含视频的ID，起始时间和终止时间，对应的描述caption，还有UMT-SIM，一种评价指标。

2.2 下载视频文件

我采用的方法是使用pytube库下载视频。先获取视频的ID，然后下载整段视频，再用opencv库里的函数进行裁剪，然后删除原视频。
有的库貌似可以下载指定时间段的视频，但暂时还没研究出来。
提供一个参考的脚本：

import os
import cv2
import sys
from datasets import load_dataset
import threading
from pytube import YouTube
from pytube.exceptions import VideoPrivate,AgeRestrictedError,VideoUnavailable
from datetime import datetime
def progress(s, chunk, bytes_remaining):
    download_percent = int((s.filesize-bytes_remaining)/s.filesize*100)
    sys.stdout.write(f'\rProgress: {download_percent} %')
    sys.stdout.flush()

def complete(s, file_path):
    print(f'Download complete: {file_path}')

def download_video(youtube_id, custom_filename, start_time, end_time, idx, retry_count=0):
    output_file = 'XXX.mp4'  # 输出文件名
    # 检查文件是否已经存在
    if os.path.exists(output_file):
        print(f'视频 {idx} 已经存在，跳过下载。')
        return
    try:
        youtube_video = YouTube(f'https://www.youtube.com/watch?v={youtube_id}', on_progress_callback=progress, on_complete_callback=complete)
        video_stream = youtube_video.streams.get_highest_resolution()
        # 检查视频大小，如果大于100MB，就跳过这个视频
        if video_stream.filesize_mb > 50 :  # 50MB
            print(f'视频 {idx} 大于50MB,跳过下载。')
            return
        print(f'开始下载，视频{idx}大小为{video_stream.filesize_mb:.2f}MB')# 保留两位小数
        video_path = video_stream.download(output_path=download_path, filename=custom_filename)
        print(f'视频 {idx} 下载完成，保存路径为：{video_path}')
    except Exception as e:  # 添加这一行来捕获所有的异常
        print(f'下载视频 {idx} 时发生了未知错误：{e}')  # 打印出异常的详细信息
        return
    # 将时间戳字符串转换为秒
    start_time = datetime.strptime(start_time, "%H:%M:%S.%f")
    start_time = start_time.hour * 3600 + start_time.minute * 60 + start_time.second + start_time.microsecond / 1e6
    end_time = datetime.strptime(end_time, "%H:%M:%S.%f")
    end_time = end_time.hour * 3600 + end_time.minute * 60 + end_time.second + end_time.microsecond / 1e6
    # 裁剪视频
    cap = cv2.VideoCapture(video_path)
    fps = cap.get(cv2.CAP_PROP_FPS)  # 获取视频的帧率
    start_frame = int(start_time * fps)  # 计算开始帧的位置
    end_frame = int(end_time * fps)  # 计算结束帧的位置

    fourcc = cv2.VideoWriter_fourcc(*'mp4v')  # 定义编码器
    output_file = 'XXX.mp4'  # 输出文件名
    out = cv2.VideoWriter(output_file, fourcc, fps, (int(cap.get(3)), int(cap.get(4))))  # 创建VideoWriter对象

    cap.set(cv2.CAP_PROP_POS_FRAMES, start_frame)  # 设置开始帧的位置
    while cap.isOpened():
        ret, frame = cap.read()
        if ret and int(cap.get(cv2.CAP_PROP_POS_FRAMES)) <= end_frame:
            out.write(frame)
        else:
            break
    # 释放资源
    cap.release()
    out.release()
    # 删除原始视频
    os.remove(video_path)
    print(f'裁剪完毕，已删除原始视频 {idx}')

if __name__ == '__main__':
    dataset = load_dataset("OpenGVLab/InternVid",'InternVid-10M')
    print(dataset)
    # 下载路径
    download_path = './video/'  # 原视频的路径
    # 创建并启动多个线程来下载视频
    threads = []
    for i in range(0,100000,5):
        for j in range(i, min(i+5, 100000)):  # 同时下载
            video_id = dataset["InternVid_10M_FLT"][j]["YoutubeID"]
            start_time = dataset["InternVid_10M_FLT"][j]["Start_timestamp"]
            end_time = dataset["InternVid_10M_FLT"][j]["End_timestamp"]
            custom_filename = video_id + '.mp4'
            thread = threading.Thread(target=download_video, args=(video_id, custom_filename, start_time, end_time, j))
            thread.start()
            threads.append(thread)
        # 等待所有线程完成下载
        for thread in threads:
            thread.join()
    print("所有视频下载并裁剪完成")