读取视频并转换为Tensor方法对比

最近在学习视频问答(Video Question Answering),发现视频问答中对于视觉特征的处理通常是使用预训练模型提前处理好的,然而运行一些提取特征的代码的时候发现GPU占用率并不高,发现大部分时间花费在了加载视频上,考虑到以后大量的读取需求,于是自己做了一些使用python库加载视频的实验。使用的方法如下:

方法结果备注
opencv
scikit-video
imageio
vidgear
pyav
torchvision
simplecv×似乎不支持python3
mahotas×似乎不支持加载视频
kornia×不是用来读取视频的,用于对视频进行增强
moviepy×不能读取视频流,通常用于视频剪辑
simpleITK×不支持视频,通常用于医学影像
pgmagick×更常用在gif动图上,似乎不支持视频

注:以上若有不准确的地方请指正

测试的结果如下图所示:(这里的截图忘记放torchvision的了,完整的表格请参考我的github仓库)
在这里插入图片描述
在实验过程中注意到的一些现象:

  1. 帧合成千万不要一帧一帧concate,用list进行append之后再进行concate,这样会快很多
  2. 做resize对于画面比较大的视频来说性价比很高,对于不那么大的视频来说收益不高
  3. opencv需要BGR通道重排,使用numpy的transpose重排和torch的permute重排区别不大
  4. 转成PIL再转换为tensor是反向优化,考虑到也不用随机数据增强,所以还是opencv吧
  5. 先将图片ndarray数组汇聚成一个数组,再转换成Tensor会稍微快一点点
  6. 由于pytorch ToTensor只接受ndarray和PILImage输入,所以如果读取格式特殊,则需要转化,会造成速度全面落后
  7. vidgrear看起来很厉害,其实是最慢的,不知道是不是我api使用有问题
  8. 把视频提取成图片并没有什么优势,反而会导致文件大小迅速增大
  9. torchvision提供的io根据版本api差异比较大,不过性能确实可以与opencv相比

最后结论就是:使用opencv就好了
上述结果的测试代码和运行方法详见我的github仓库:load_video_as_tensor,如果对您有帮助请给我一个star

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,这是一个比较复杂的需求,我需要详细解释一下步骤。 1. 导入必要的库 首先,我们需要导入 PyTorch 和 pandas 库,分别用于深度学习和数据处理。 ```python import torch import pandas as pd ``` 2. 读取 CSV 文件 使用 pandas 库的 `read_csv` 函数读取 CSV 文件,并将其转换PyTorch 的张量。 ```python data = pd.read_csv('data.csv') data_tensor = torch.tensor(data.values) ``` 3. 定义 DCGAN 模型 DCGAN 是一种生成对抗网络,其目的是从随机噪声中生成逼真的图像。在这里,我们将使用 DCGAN 模型来生成代码。我们可以使用 PyTorch 官方提供的 DCGAN 示例作为参考。 ```python class Generator(nn.Module): def __init__(self, ngpu): super(Generator, self).__init__() self.ngpu = ngpu self.main = nn.Sequential( # 输入为100维的随机向量 nn.ConvTranspose2d(100, 512, 4, 1, 0, bias=False), nn.BatchNorm2d(512), nn.ReLU(True), # 输出为(512, 4, 4)的张量 nn.ConvTranspose2d(512, 256, 4, 2, 1, bias=False), nn.BatchNorm2d(256), nn.ReLU(True), # 输出为(256, 8, 8)的张量 nn.ConvTranspose2d(256, 128, 4, 2, 1, bias=False), nn.BatchNorm2d(128), nn.ReLU(True), # 输出为(128, 16, 16)的张量 nn.ConvTranspose2d(128, 64, 4, 2, 1, bias=False), nn.BatchNorm2d(64), nn.ReLU(True), # 输出为(64, 32, 32)的张量 nn.ConvTranspose2d(64, 1, 4, 2, 1, bias=False), nn.Tanh() # 输出为(1, 64, 64)的张量 ) def forward(self, input): return self.main(input) # 创建生成器实例 netG = Generator(ngpu).to(device) ``` 4. 训练 DCGAN 模型 接下来,我们需要训练 DCGAN 模型。我们将使用随机噪声作为输入,并将生成的代码保存到 CSV 文件中。 ```python # 设置训练参数 criterion = nn.BCELoss() fixed_noise = torch.randn(64, nz, 1, 1, device=device) real_label = 1 fake_label = 0 optimizerG = optim.Adam(netG.parameters(), lr=lr, betas=(beta1, 0.999)) # 开始训练 for epoch in range(num_epochs): for i, data in enumerate(dataloader, 0): # 训练生成器 netG.zero_grad() noise = torch.randn(batch_size, nz, 1, 1, device=device) fake = netG(noise) label = torch.full((batch_size,), real_label, device=device) output = netD(fake.detach()).view(-1) errG = criterion(output, label) errG.backward() optimizerG.step() # 保存生成的代码到 CSV 文件 if i % 100 == 0: fake = netG(fixed_noise) generated_data = fake.view(fake.size(0), -1).cpu().detach().numpy() generated_data_df = pd.DataFrame(generated_data) generated_data_df.to_csv('generated_data.csv', mode='a', header=False, index=False) ``` 在训练过程中,我们将生成的代码保存到 CSV 文件中。 5. 读取生成的代码 最后,我们可以使用 pandas 库读取生成的代码,并将其保存到新的 CSV 文件中。 ```python generated_data = pd.read_csv('generated_data.csv', header=None) generated_data_tensor = torch.tensor(generated_data.values) generated_data_tensor.to_csv('generated_data_processed.csv', index=False) ``` 这样,我们就完成了从 CSV 文件读取数据、使用 DCGAN 模型生成代码,并将生成的代码保存到 CSV 文件的整个过程。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值