Fine-tune BERT for Extractive Summarization中文数据集LCSTS复现

最新推荐文章于 2022-03-19 19:25:03 发布

左手指月

最新推荐文章于 2022-03-19 19:25:03 发布

阅读量2.1k

点赞数 1

分类专栏：文本摘要 attention 自然语言处理文章标签：自然语言处理神经网络深度学习 pytorch

本文链接：https://blog.csdn.net/qq_41961237/article/details/104873796

版权

attention 同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

文本摘要

2 篇文章 0 订阅

订阅专栏

自然语言处理

2 篇文章 0 订阅

订阅专栏

目前有关于Fine-tune BERT for Extractive Summarization代码只有英文数据集，未曾包含中文LCSTS的数据集，疫情在家期间尝试将代码转换到中文数据集中。
**

一、数据转换篇

**
根据源代码中对数据格式的要求，一个story文件中包含原文和摘要，以@highlight进行区分。
所以我们首先需要将原LCSTS数据集进行转换，原数据集的格式如下：在这里插入图片描述经过转换后的数据格式如下，并且每一条文档和摘要存在一个story文件中。
数据处理部分代码有一点需要注意的是，

该文件一共运行三次，分别处理训练、验证、测试集，并且加载部分和生成文件部分需要进行一定的改正。需要的小伙伴注意一下，这一点切勿出错（运行的三次，改6个地方）
**

二、分词处理

**
分词部分需要改动的代码到没有，不过需要将Stanford-Chinese-corenlp包提前放在stanford-corenlp-full-2017-06-09路径中去在这里插入图片描述 **

三 format-to-lines部分

**
因为LCSTS数据集已经划分好训练、验证、测试的内容了，并没有cnn-map，所以需要对代码进行部分的更改，直接读取三部分内容进行划分。在这里插入图片描述而format_to_bert并不需要进行代码更改，暂且不提。
**

四、模型更换

**
因为数据集从英文切换到中文上来，因此需要对预训练模型进行更换。主要需要更换的内容由两部分，如下截图：在这里插入图片描述
整体来看的话，从英文切换到中文上难度并不大，主要是数据处理部分需要自己构建。不过代码能力的确有点弱，写的不好多多海涵。具体代码获取可以关注公众号：江湖硕士，回复关键词：bert-ext中文，进行获取。

左手指月

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
10
评论
Fine-tune BERT for Extractive Summarization中文数据集LCSTS复现

目前有关于Fine-tune BERT for Extractive Summarization代码只有英文数据集，未曾包含中文LCSTS的数据集，疫情在家期间尝试将代码转换到中文数据集中。**一、数据转换篇**根据源代码中对数据格式的要求，一个story文件中包含原文和摘要，以@highlight进行区分。所以我们首先需要将原LCSTS数据集进行转换，原数据集的格式如下：经过转换后的数...
复制链接

扫一扫

专栏目录