Caffe 实践 - 基于 ResNet101 的 Multi-label 多标签标注的训练与部署
以前曾尝试过修改 Caffe ImageDataLayer 源码的方式来读取多个 labels - ImageMultilabelDataLayer [Caffe实践 - 基于VGG16 多标签分类的训练与部署].
修改源码的方式可能显得稍微有点繁琐, 毕竟需要重新编译.
这里尝试了一种新的方式来进行多标签自动标注.
与 [Caffe实践 - 基于VGG16 多标签分类的训练与部署] 不同的是, 前者是以 Multi-task 的方式进行处理的,每一个 task 分别是一个label的分类问题. 而这里是以多标签标注方式进行的.
1. 数据集
1.1 数据格式转换
数据形式如, images_labels.txt:
img1.jpg 1 0 1 ... 0
img2.jpg 0 1 0 ... 1
img3.jpg 1 1 0 ... 0
......
每一行是一个数据样本, 其对应的 multilabels 为一个 01 向量的形式. 且所有的样本所对应的 multilabels 向量长度是相同的.
可以类似于 [Caffe实践 - 基于VGG16 多标签分类的训练与部署] 来读取 multilabels 数据.
但这里采用了另外的一种方式:
首先将数据转换为两个文件, 其内容格式分别为:
-
imageslist.txt
img1.jpg 2 img2.jpg 5 img3.jpg 3 ......
每一行对应一个数据样本, 图片 + 标签labels数 的形式.
-
labelslist.txt
1 0 1 ... 0 0 1 0 ... 1 1 1 0 ... 0 ......
每一行对应与一个数据样本的 multilabels. 01 向量.
1.2 生成 lmdb 数据
gen_label_lmdb.py:
#! --*-- coding: utf-8 --*--
import numpy
import argparse
from caffe.proto import caffe_pb2
import lmdb
def parse_args():
parser = argparse.ArgumentParser(description='End-to-end inference')
parser.add_argument('--labels', dest='labels',
help='label txt file',
default=None, type=str )
parser.add_argument('--images', dest='images',
help='image txt file, for keys of datum',
default=None, type=str )
parser.add_argument('--lmdb', dest='lmdb',
help='label lmdb file',
default=None, type=str )