经上一篇博文,相信模型的环境准备已经完成啦!
接下来我们需要根据不同的任务,使用BERT提高准确率。
此篇讲的是文本的分类:
1.数据的格式
需要准备3个文件,分别是训练集、验证集、测试集,格式相同,每行为一个类别+文本,用“\t”间隔。(如果选择其他间隔符,需要修改run_classifier.py中_read_tsv方法)。
2.修改run_classifier.py
(1)添加处理数据的类,class MyProcessor(), 如下:(说明:数据文件读取的类DataProcessor, 官方自带了4个不同数据集(Xnli, Mnli, Mrpc和Cola)的子类)
class MyProcessor(DataProcessor):
"""Processor for my data set."""
def get_train_examples(self, data_dir):
examples = []
file_path = os.path.join(data_dir, 'train.csv')
df = pd.read_csv(file_path, encoding='utf-8')
for i, data in enumerate(df.values):
guid = 'train-%d' % (i)
text_a = tokenization.convert_to_unicode(str(data[1]))
label = str(data[2:])
examples.append(InputExample(guid=guid, text_a=text_a, text_b=None, label=label))
return examples
def get_test_examples(self, data_dir):
examples = []
file_path = os.path.join(data_dir, 'test.csv')
df = pd.read_csv(file_path, encoding='utf-8')
for i, data in enumerate(df.values):
guid = 'test-%d' % (i)
text_a = tokenization.convert_to_unicode(str(data[1]))
label = str(data[2:])
examples.append(InputExample(guid=guid, text_a=text_a, text_b=None, label=label))
ret