【原创内容,转载需作者同意】
以下内容为Youtube-8M开源示范代码的README翻译,原文来自:https://github.com/google/youtube-8m
翻译本意是为了让自己更了解这个数据集,若有翻译错误,请指教。
YouTube-8M Tensorflow Starter Code
该repo包含基于YouTube-8m数据集的训练和评估机器学习模型的起始代码。这些代码用于第二届YouTube8M视频理解大赛以及是2018欧洲ECCV精选沿途会议的一部分。代码提供了端到端的工作示范,包括数据读取,训练一个TensorFlow模型,以及评估一个模型的性能。这些代码方便使用,您能够训练多个基于帧级或者视频级的模型框架。此外,代码也能够轻易扩展来实用于您自己的定制模型。
一、 如何在个人电脑(服务器)运行代码
1.条件
起始代码需要用到TensorFlow。如果你还未安装,请按照tensorflow官方网站的说明进行安装。代码已经在tensorflow1.8(最新版本)下测试过了。未来,我们也将致力于使代码能够在最新版本下的tensoeflow下运行。
请通过如下命令行确认您已经安装了Python2.7+ 和tensorflow 1.8或者更新版本
python --version
python -c 'import tensorflow as tf; print(tf.__version__)'
2.批量下载数据集
您能够在YouTube-8M网站上得到关于下载数据集的完整说明。我们建议您按照自己的需求下载数据集的一部分。例如,您可以通过如下命令行下载数据集的1/100视频数据及其特征:
# Video-level
mkdir -p ~/yt8m/v2/video
cd ~/yt8m/v2/video
curl data.yt8m.org/download.py | shard=1,100 partition=2/video/train mirror=us python
curl data.yt8m.org/download.py | shard=1,100 partition=2/video/validate mirror=us python
curl data.yt8m.org/download.py | shard=1,100 partition=2/video/test mirror=us python
# Frame-level
mkdir -p ~/yt8m/v2/frame
cd ~/yt8m/v2/frame
curl data.yt8m.org/download.py | shard=1,100 partition=2/frame/train mirror=us python
curl data.yt8m.org/download.py | shard=1,100 partition=2/frame/validate mirror=us python
curl data.yt8m.org/download.py | shard=1,100 partition=2/frame/test mirror=us python
注意:本说明文件假设以~/yt8m作为存储数据,代码,以及训练模型的路径。你也可以使用其他路径。此外,如果您以~/yt8m作为路径就能够直接复制页面上的命令行到本地终端。
上述命令行将会从US镜像上下载所有的视频级训练集。若您在南美以外的区域,您可以更改‘mirror’的参数为‘eu’(欧洲)或者‘asia’(亚洲)来加速传输。
3.尝试运行代码
复制起始代码命令:
mkdir -p ~/yt8m/code
cd ~/yt8m/code
git clone https://github.com/google/youtube-8m.git
(1)进行视频级的训练