运行官网论坛给出的baseline代码:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.2ce832bc6BfoeY&postId=108342
思路:利用图片和label标记,把每个图的结果对应为出5个数字之内的数字猜测,网络的输出为(pic_num,5,11)的tensor,其中5对应猜测的长度,11对应0-9个数字和背景数字。
依据:利用python中的dict统计标签中的预测数据(mchar_val.json)的长度可以得到如下结果,发现预测图片中的数字长度在5以内,所以可以用定长的方法:
torch.utils.data.DataLoader函数:数据加载器,结合了数据集和取样器,并且可以提供多个线程处理数据集。在训练模型时使用到此函数,用来把训练数据分成多个小组,此函数每次抛出一组数据。直至把所有的数据都抛出。
torch.utils.data.DataLoader(
dataset,#数据加载
batch_size = 1,#批处理大小设置
shuffle = False,#是否打乱顺序读取数据
sampler = None,#指定数据加载中使用的索引/键的序列
batch_sampler = None,#和sampler类似
num_workers = 0,#是否进行多进程加载数据设置
collate_fn = None,#是否合并样本列表以形成一小批
Tensor pin_memory = False,#如果True,数据加载器会在返回之前将Tensors复制到CUDA固定内存
drop_last = False,
timeout = 0,
worker_init_fn = None )
model中的nn.Linear函数用法:
对应源代码中:
train_loader = torch.utils.data.DataLoader(
SVHNDataset(train_path, train_label,
transforms.Compose([
transforms.Resize((64, 128)),
transforms.RandomCrop((60, 120)),
transforms.ColorJitter(0.3, 0.3, 0.2),
transforms.RandomRotation(10),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])),
batch_size=1,
shuffle=True,
# num_workers=10,
)
for i, (input, target) in enumerate(train_loader):
。。。
nn.Linear函数:
self.fc1 = nn.Linear(512, 11)
c1 = self.fc1(feat)
将代码移植到服务器上训练,并将结果提交,得到如下结果。
想法:该模型没有用到数据标签中的数字定位坐标,后续可以考虑怎么更好的利用坐标。