在faster-rcnn的数据集读取部分,有一个factory.py文件(为了便于阅读删除了一些代码,比如image_net数据集的处理,但逻辑没变):
__sets = {}
from lib.datasets.pascal_voc import pascal_voc
from lib.datasets.coco import coco
import numpy as np
# Set up voc_<year>_<split>
for year in ['2007', '2012']:
for split in ['train', 'val', 'trainval', 'test']:
name = 'voc_{}_{}'.format(year, split)
__sets[name] = (lambda split=split, year=year: pascal_voc(split, year))
# Set up coco_2014_<split>
for year in ['2014']:
for split in ['train', 'val', 'minival', 'valminusminival', 'trainval']:
name = 'coco_{}_{}'.format(year, split)
__sets[name] = (lambda split=split, year=year: coco(split, year))
def get_imdb(name):
"""Get an imdb (image database) by name."""
if name not in __sets:
raise KeyError('Unknown dataset: {}'.format(name))
return __sets[name]()
def list_imdbs():
"""List all registered imdbs."""
return list(__sets.keys())
上边的代码用到了设计模式中简单工厂模式的思想,但又和平常的代码长得不太一样。
平常大家习惯的是用一个工厂类来控制不同产品的实例化,具体可以参考这篇博客:用Python实现设计模式——工厂模式
这里的代码另辟蹊径,没有使用类,而是用了一个字典__sets,key存的是不同数据集的名字,value是匿名函数对象。匿名函数的功能是实例化不同的对象。此外,匿名函数的参数在定义时就绑定好了。
然后get_imdb()函数通过key来找value,就相当于我们平时工厂类用接口传入参数来获得想要的实例。
需要注意的是,找到value之后,由于value是函数对象,所以后边要加一对括号来调用函数。因此,数据类是在这时实例化的。