模型输入处理
1、构建example
为json文件里的每个word和tag构建对应的example,每个example的构成 :
- guid:
示例的唯一ID,比如训练集就是train-1009,测试集就是test-1009
text_a: - 字符串:
第一个序列的未标记文本(无符号的)。由于是单序列任务,仅必须指定此序列。 - lable:
(可选)字符串,example的标签,也就是上面的tag,只为训练集和验证集的example指定标签,但不为测试集指定。
2、构建feature
为每个example构建feature,即获取每个word的id,每个label的id,mask等信息,形式如下:
Feature包含:
下面展示其中一个example的feature,也就是训练集的其中一个输出:
-
token
就是中文的字,如果是数字就是NUM表示。 -
input id
-
input mask
-
segment_ids
-
lable_ids
其中,0是tag为“SPACE”,1是tag为",COMMA",2是tag为".PERIOD",3是tag为"?QUESTIONMARK"。
参考文献:https://github.com/w5688414/BERT-Punctuation-Prediction