实现
bert模型已经被封装好了,直接使用就可以了。
但是需要自定义一个实体类,用来处理自己的数据。
直接在run_classify.py中加入下面类就可以
自定义MyDataProcessor类,传入
class MyDataProcessor(DataProcessor):
"""Base class for data converters for sequence classification data sets."""
#data_dir对应参数中,的data_dir
#这个方法用来处理训练数据,
def get_train_examples(self, data_dir):
"""Gets a collection of `InputExample`s for the train set."""
file_path=os.path.join(data_dir,"train.txt")
file=open(file_path,'r',encoding='utf-8')
train_data=[]
index=0
for line in file.readlines():
#标记每一行的数据
guid = "train-%d" % (index)
#切分数据集
line=line.rsplit('|',1)
#对于原始数据集做一个编码
text_a = tokenization.convert_to_unicode(str(line[0]).replace(' ',''))
#去掉label中多余的部分
label = str(line[1