Fine-tune BERT for Extractive Summarization中文数据集LCSTS复现

目前有关于Fine-tune BERT for Extractive Summarization代码只有英文数据集,未曾包含中文LCSTS的数据集,疫情在家期间尝试将代码转换到中文数据集中。
**

一、数据转换篇

**
根据源代码中对数据格式的要求,一个story文件中包含原文和摘要,以@highlight进行区分。
所以我们首先需要将原LCSTS数据集进行转换,原数据集的格式如下:在这里插入图片描述经过转换后的数据格式如下,并且每一条文档和摘要存在一个story文件中。在这里插入图片描述
数据处理部分代码有一点需要注意的是,在这里插入图片描述
在这里插入图片描述
该文件一共运行三次,分别处理训练、验证、测试集,并且加载部分和生成文件部分需要进行一定的改正。需要的小伙伴注意一下,这一点切勿出错(运行的三次,改6个地方)
**

二、分词处理

**
分词部分需要改动的代码到没有,不过需要将Stanford-Chinese-corenlp包提前放在stanford-corenlp-full-2017-06-09路径中去在这里插入图片描述**

三 format-to-lines部分

**
因为LCSTS数据集已经划分好训练、验证、测试的内容了,并没有cnn-map,所以需要对代码进行部分的更改,直接读取三部分内容进行划分。在这里插入图片描述而format_to_bert并不需要进行代码更改,暂且不提。
**

四、模型更换

**
因为数据集从英文切换到中文上来,因此需要对预训练模型进行更换。主要需要更换的内容由两部分,如下截图:在这里插入图片描述
在这里插入图片描述整体来看的话,从英文切换到中文上难度并不大,主要是数据处理部分需要自己构建。不过代码能力的确有点弱,写的不好多多海涵。具体代码获取可以关注公众号:江湖硕士,回复关键词:bert-ext中文,进行获取。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值