2021SC@SDUSC
分析data文件夹中的代码内容
data文件夹下面又有data-set-reader field-reader tokenizer 三个文件夹
BaseDataSetReader:将样本中数据组装成一个py_reader, 向外提供一个统一的接口。 核心内容是读取明文文件,转换成id,按py_reader需要的tensor格式灌进去,然后通过调用run方法让整个循环跑起来。 py_reader拿出的来的是lod-tensor形式的id,这些id可以用来做后面的embedding等计算。
必须选项,否则会抛出异常。 用于初始化self.paddle_py_reader。
实例化fields_dict, 调用pyreader,得到fields_id, 视情况构造embedding,然后结构化成dict类型返回给组网部分。
实例化的dict,保存了各个field的id和embedding(可以没有,是情况而定), 给trainer用.
数据生成器:读取明文文件,生成batch化的id数据,绑定到py_reader中
而剩下两种则是ernie 和Roberta两种模型来进行训练 这部分下一章再进行分析