生成hdf5文件用于多标签训练

最新推荐文章于 2022-10-25 10:47:19 发布

看穿数据之美

最新推荐文章于 2022-10-25 10:47:19 发布

阅读量1.3k

点赞数

分类专栏：深度学习/机器学习 caffe&tensorflow&keras&pytorch 人脸识别

深度学习/机器学习同时被 3 个专栏收录

157 篇文章 3 订阅

订阅专栏

caffe&tensorflow&keras&pytorch

33 篇文章 1 订阅

订阅专栏

人脸识别

9 篇文章 0 订阅

订阅专栏

导入相关库

import random
from PIL import Image
import numpy as np

import h5py
  
  1
2
3
4
5
  
  1
2
3
4
5

文件配置

IMAGE_DIR = ['image_train', 'image_test']
HDF5_FILE = ['hdf5_train.h5', 'hdf5_test.h5']
LIST_FILE = ['list_train.txt', 'list_test.txt']
  
  1
2
3
  
  1
2
3

label配置

LABELS = dict(
    # (kind_1, kind_2)
    A_0 = (0, 0),
    B_0 = (1, 0),
    A_1 = (0, 1),
    B_1 = (1, 1),
    A_2 = (0, 2),
    B_2 = (1, 2),
)
  
  1
2
3
4
5
6
7
8
9
  
  1
2
3
4
5
6
7
8
9

生成hdf5文件

print '\nplease wait...'

for kk, image_dir in enumerate(IMAGE_DIR):
    # 读取文件列表于file_list
    file_list = ...
    # 文件列表乱序
    random.shuffle(file_list)

    # 标签类别
    kind_index = ...

    # 图片大小为96*32，单通道
    datas = np.zeros((len(file_list), 1, 32, 96))
    # label大小为1*2
    labels = np.zeros((len(file_list), 2))

    for ii, _file in enumerate(file_list):
        # hdf5文件要求数据是float或者double格式
        # 同时caffe中Hdf5DataLayer不允许使用transform_param，
        # 所以要手动除以256
        datas[ii, :, :, :] = \
            np.array(Image.open(_file)).astype(np.float32) / 256
        labels[ii, :] = np.array(LABELS[kind_index ]).astype(np.int)

    # 写入hdf5文件
    with h5py.File(HDF5_FILE[kk], 'w') as f:
        f['data'] = datas
        f['labels'] = labels
        f.close()

    # 写入列表文件，可以有多个hdf5文件
    with open(LIST_FILE[kk], 'w') as f:
        f.write(os.path.abspath(HDF5_FILE[kk]) + '\n')
        f.close()

print '\ndone...'
  
  1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
  
  
   
   
  
  
  
  1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

注意：
- caffe中要求1个hdf5文件大小不超过2GB，所以如果数据量太大，建议生成多个hdf5文件
- 我用的5万张图片，大小一共30几兆，生成的hdf5文件是1.8GB

看穿数据之美

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
生成hdf5文件用于多标签训练

导入相关库import randomfrom PIL import Imageimport numpy as npimport h5py1234512345文件配置IMAGE_DIR = ['image_train', 'image_test']HDF5_FILE = ['hdf5_train.h5', 'hdf5_test.h5']LIST_FILE = ['list
复制链接

扫一扫