paddlehub序列标注任务数据集转化
任务
由“列数据集”转化“行数据集”
即由列标注数据转化为百度PaddleHub平台的nlp序列标注任务的数据集类型
首先,看一下数据样例:
注1:训练集数据格式:单词 \t 词性标签 \n
即每行包含单词及其词性标签,如Jawa NNP
注2:每句话用\n隔开
转换代码
import os
from itertools import groupby
file = open("Ind_train.txt",encoding="utf-8")
sig_data = file.readlines()
dic
原创
2020-12-02 13:10:30 ·
503 阅读 ·
0 评论