目前有关于Fine-tune BERT for Extractive Summarization代码只有英文数据集,未曾包含中文LCSTS的数据集,疫情在家期间尝试将代码转换到中文数据集中。
**
一、数据转换篇
**
根据源代码中对数据格式的要求,一个story文件中包含原文和摘要,以@highlight进行区分。
所以我们首先需要将原LCSTS数据集进行转换,原数据集的格式如下:经过转换后的数据格式如下,并且每一条文档和摘要存在一个story文件中。
数据处理部分代码有一点需要注意的是,
该文件一共运行三次,分别处理训练、验证、测试集,并且加载部分和生成文件部分需要进行一定的改正。需要的小伙伴注意一下,这一点切勿出错(运行的三次,改6个地方)
**
二、分词处理
**
分词部分需要改动的代码到没有,不过需要将Stanford-Chinese-corenlp包提前放在stanford-corenlp-full-2017-06-09路径中去**
三 format-to-lines部分
**
因为LCSTS数据集已经划分好训练、验证、测试的内容了,并没有cnn-map,所以需要对代码进行部分的更改,直接读取三部分内容进行划分。而format_to_bert并不需要进行代码更改,暂且不提。
**
四、模型更换
**
因为数据集从英文切换到中文上来,因此需要对预训练模型进行更换。主要需要更换的内容由两部分,如下截图:
整体来看的话,从英文切换到中文上难度并不大,主要是数据处理部分需要自己构建。不过代码能力的确有点弱,写的不好多多海涵。具体代码获取可以关注公众号:江湖硕士,回复关键词:bert-ext中文,进行获取。