山东大学软件工程应用与实践----SENTA代码分析(五)

2021SC@SDUSC

这篇博客我们讲来分析field-reader这部分代码

首先是base-field-reader.py这个文件  他是作用于field的reader,主要是定义py_reader的格式,完成id序列化和embedding的操作

 这个custom-field-reader.py文件是

通用文本(string)类型的field_reader,文本处理规则是,文本类型的数据会自动添加padding和mask,并返回length

其中定义了这些函数,作用分别是:

param field_config

初始化reader格式
:return: reader的shape[]、type[]、level[]

 

 

将一个batch的明文text转成id
:param batch_text:
:return:

静态图调用的方法,生成一个dict, dict有两个key:id , emb. id对应的是pyreader读出来的各个field产出的id,emb对应的是各个
field对应的embedding
:param fields_id: pyreader输出的完整的id序列
:param start_index:当前需要处理的field在field_id_list中的起始位置
:param need_emb:是否需要embedding(预测过程中是不需要embedding的)
:return:

 

 

获取当前这个field在进行了序列化之后,在field_id_list中占多少长度
:return:

这次的代码分析就先分析到这,剩下的代码由下篇博客再分析~

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值