Visual Genome处理(可跳过)
其实这个步骤不是必须做的,但是属于预处理步骤,所以还是写上来比较好。在用到Visual Genome来训练的时候才需要做这个部分,所以可以先跳过再回来看看。
因为mcb项目已经比较老了,所以项目那里的说明基本上不能够直接用,除非你打算安装旧版本的Visual Genome Python Driver。这里我决定直接用新版本的,因为旧版本和新版本其实没有大的变化,只是api的名字变了而已,只需要改一点东西就可以直接用了。
首先需要下载Visual Genome Python Driver并进行安装,直接git clone https://github.com/ranjaykrishna/visual_genome_python_driver
下载整个repo,然后cd
进去,pip install .
(记得先切换到为这个项目创建的虚拟环境)来进行安装就可以调用Visual Genome Python Driver了。
在安装好Visual Genome Python Driver之后就需要更新下原本mcb项目里面用来预处理的脚本vg_preprocessing.py
了,大概改成这样就行(留意贫僧写了要改的地方就行):
import numpy as np
from visual_genome import local # 这里要改下
import re
import pdb
import json
# True: Augments the genome dataset by converting literal number answers to numerical form (i.e. 'one' --> '1')
# For the challenge submission, we set this as False
AUGMENT = False
# Path to genome data 这里记得改成你存放的visual genome的图片的位置
DATA_PATH = 'genome'
# List of words to prune
ELIMINATE = ['on', 'the', 'a', 'in', 'inside', 'at', 'it', 'is', 'with', 'near'