山东大学软件工程应用与实践----SENTA代码分析(三)

2021SC@SDUSC

 

分析data文件夹中的代码内容

data文件夹下面又有data-set-reader  field-reader tokenizer 三个文件夹 

         

BaseDataSetReader:将样本中数据组装成一个py_reader, 向外提供一个统一的接口。
核心内容是读取明文文件,转换成id,按py_reader需要的tensor格式灌进去,然后通过调用run方法让整个循环跑起来。
py_reader拿出的来的是lod-tensor形式的id,这些id可以用来做后面的embedding等计算。

 

必须选项,否则会抛出异常。
用于初始化self.paddle_py_reader。

实例化fields_dict, 调用pyreader,得到fields_id, 视情况构造embedding,然后结构化成dict类型返回给组网部分。
实例化的dict,保存了各个field的id和embedding(可以没有,是情况而定), 给trainer用.

数据生成器:读取明文文件,生成batch化的id数据,绑定到py_reader中

 

而剩下两种则是ernie 和Roberta两种模型来进行训练 这部分下一章再进行分析 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值