内心os:本来是本硕学通信的,误入了计算机系读博。曾经熟练使用C、Verilog、MATLAB,结果现在转专业都用python。后悔当年没坚持下来自学python。语言学习止步于面向对象之外。为了独立写代码发paper,我要努力自学…
今天学的是代码读取。首先新建read_data.py,新建类MyData,继承与Dataset类
代码学习
class MyData(Dataset):
构造函数的定义:
def __init__(self, root_dir, label_dir):
self.root_dir = root_dir
self.label_dir = label_dir
self.path = os.path.join(self.root_dir, self.label_dir)
self.img_path = os.listdir(self.path)
我的理解是从输入变量拿参数,赋值给实例的属性。
__getitem__
这个函数是用来通过索引index访问元素。Python中,这个方法用于实现索引操作,允许对象像列表或字典一样通过索引访问元素。
在这个特定的实现中,__getitem__方法接受一个参数index,表示要访问的元素的索引。它首先根据索引获取图像的文件名img_name,然后使用文件名构建图像的完整路径img_item_path。接下来,它使用PIL库中的Image.open函数打开图像文件,并将结果赋值给变量img。最后,它将图像和标签label作为元组返回。
def __getitem__(self, index):
img_name = self.img_path[index]
#拼接文件路径
img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
img = Image.open(img_item_path)
label = self.label_dir
return img, label
Debug
今天还学到了怎么用vscode debug代码,之前都是比较naive,用jupyter notebook一行行打印的,笑死。就是打开python文件设置断点就可以看具体变量变化了。
其他技巧
记得数据集比较大的情况下,往往不是文件夹分label的,而是用数据相同文件名的txt文件写上label。其实我也见过yaml文件啥的。以后见到再补充。