import os
import numpy as np
from PIL import Image
import pandas as pd
import torch
info_array = []#多维的数组,维度分别是文件名(无.jpg),类别标签(one-hot编码格式)
col = ['image', 'MEL', 'NV','BCC','AKIEC','BKL','DF','VASC'] #这里填写你的数据集,第一个是图片名称,第二个之后都是标签名
dataset_dir = './isic/train'#这里填写你的数据所在目录,注意最后不要加/,下面会加上/,
#读取文件路径下的多个类别(每个类别一个文件夹)
classes = os.listdir(dataset_dir)
#打印类别个数
print("image classes length:",len(classes))
#定义one-hot函数
def one_hot(x, class_count):
# 第一构造一个[class_count, class_count]的对角线为1的向量
# 第二保留label对应的行并返回
return torch.eye(class_count)[x,:]
#获取每一个标签(类别)下的图片内容
for kindname in classes:
#获取每个类别文件夹的路径
if(kindname.startswith('.')):#对于文件,忽略,只对文件夹操作
print("pass .DStore file")
else:
#获取到类别文件夹的路径
classpath = dataset_dir + '/' + kindname
for filename in os.listdir(classpath):
#定义一个文件名列表
filelist = []
#把文件名的.jpg与文件名进行分离
filename_two = filename.split('.')
#只保留文件名,不需要.jpg
filename_no_jpg = filename_two[0]
#读取每一个类的文件夹中的每一个图片文件的路径信息
filepath = classpath+'/'+filename
#把label的字符串标签转化成数字标签
label = classes.index(kindname)
#把得到的数字标签转换为one-hot编码,此时结果tensor,使用tolist转化为list
labels_one_hot = one_hot(label, len(classes)).tolist()
#把文件名放入list列表中,方便后续进行操作
filelist.append(filename_two[0])
#把文件名和转换成的one-hot编码放入一个列表中,
newline = filelist + inner_list
#把一行内容,即:文件名 类别的one-hot编码 加入到列表info-array中
info_array.append(newline)
#把列表转换为numpy的格式
info_array = np.array(info_array)
#打印该numpy的形状,几行,几列
print(info_array.shape)
#打印info-array的内容进行查看
print(info_array)
#使用pandas创建 DataFrame 进行高效地存储、处理和分析结构化数据。这里是为了保存为csv格式
df=pd.DataFrame(info_array,columns=col)
#保存为csv格式,此时是带有一列序号的
df.to_csv("./dataset.csv",encoding='UTF-8')
带标签的数据集转换成csv格式的标签
最新推荐文章于 2024-07-18 15:53:23 发布