带标签的数据集转换成csv格式的标签

最新推荐文章于 2024-07-18 15:53:23 发布

费马的弟弟费劲

最新推荐文章于 2024-07-18 15:53:23 发布

阅读量92

点赞数 3

文章标签： python 经验分享 opencv

本文链接：https://blog.csdn.net/qq_16721557/article/details/140469606

版权

import os

import numpy as np
from PIL import Image
import pandas as pd
import torch



info_array = []#多维的数组，维度分别是文件名（无.jpg），类别标签（one-hot编码格式）
col = ['image', 'MEL', 'NV','BCC','AKIEC','BKL','DF','VASC'] #这里填写你的数据集，第一个是图片名称，第二个之后都是标签名
dataset_dir = './isic/train'#这里填写你的数据所在目录，注意最后不要加/，下面会加上/，
#读取文件路径下的多个类别（每个类别一个文件夹）
classes = os.listdir(dataset_dir)
#打印类别个数
print("image classes length:",len(classes))
#定义one-hot函数
def one_hot(x, class_count):
	# 第一构造一个[class_count, class_count]的对角线为1的向量
	# 第二保留label对应的行并返回
	return torch.eye(class_count)[x,:]

#获取每一个标签（类别）下的图片内容
for kindname in classes:
    #获取每个类别文件夹的路径
    if(kindname.startswith('.')):#对于文件，忽略，只对文件夹操作
        print("pass .DStore file")
    else:
    	#获取到类别文件夹的路径	
        classpath = dataset_dir + '/' + kindname
        for filename in os.listdir(classpath):
        	#定义一个文件名列表
            filelist = []
            
            #把文件名的.jpg与文件名进行分离
            filename_two = filename.split('.')
            #只保留文件名,不需要.jpg
            filename_no_jpg = filename_two[0]
            
            #读取每一个类的文件夹中的每一个图片文件的路径信息
            filepath = classpath+'/'+filename
            #把label的字符串标签转化成数字标签
            label = classes.index(kindname)
            
            #把得到的数字标签转换为one-hot编码,此时结果tensor,使用tolist转化为list
            labels_one_hot = one_hot(label, len(classes)).tolist()
			#把文件名放入list列表中,方便后续进行操作
            filelist.append(filename_two[0])
            #把文件名和转换成的one-hot编码放入一个列表中,
            newline = filelist + inner_list
			#把一行内容,即:文件名 类别的one-hot编码   加入到列表info-array中  
            info_array.append(newline)
#把列表转换为numpy的格式
info_array = np.array(info_array)
#打印该numpy的形状,几行,几列
print(info_array.shape)
#打印info-array的内容进行查看
print(info_array)
#使用pandas创建 DataFrame 进行高效地存储、处理和分析结构化数据。这里是为了保存为csv格式
df=pd.DataFrame(info_array,columns=col)
#保存为csv格式,此时是带有一列序号的
df.to_csv("./dataset.csv",encoding='UTF-8')