2021SC@SDUSC
本文将就数据迭代部分和数据集产生部分的代码进行详细分析
首先我们对mkiters函数进行分析,详细分析如下
args = self.args
train = data.TabularDataset(path=args.path, format='tsv',fields=self.fields)
self.trainsize = len(train.examples)
valid = data.TabularDataset(path=args.path.replace("train","val"), format='tsv',fields=self.fields)
如同在第二篇博客中提到的,self是该类的一个实例,第二个args为自由参数。将实例赋予我们定义好的参数args,并定义一个局部变量train表示,TabularDataset用于定义一个csv,tsv或json格式的数据集,设置路径为args.path,格式为tsv格式,对于不需要的列field传递 为None ,若数据有列名,需设置skip_header=True,否