PKU Paraphrase Bank文章解读：句级中文文本复述语料库

OXPHOS

于 2019-10-16 19:59:02 发布

阅读量3.6k

点赞数 1

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tardigrade_/article/details/102585514

版权

本文介绍了PKU Paraphrase Bank，一个基于40部经典小说95个译本的句级中文文本复述语料库，规模达50w+句对。采用无监督方法生成，通过句对匹配模型和BERT语义相似度计算。语料库质量高，适合文本复述研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前两天查文本复述的资料的时候发现9月30号北大release了一批中文文本复述语料，就去看了一下，发现这篇文章用的方法都比较经典，易于理解，在这里做一个总结。

文章目录

文本复述定义
语料库概况
- 数据来源
- 数据规模
无监督语料库生成方法
语料库质量分析
- 语料库统计分析
- 多语料库对比分析
总结

文本复述定义

文本复述研究的主要对象是‘词语以上，句子以下’的语言单元，不涉及到段落级的改写问题。与文本相似相比，还需要考虑语义的相似性。比如：
S1: 我吃了晚饭
S2: 我吃了早饭
这两句话很像（文本相似），但意义却不一样，不能互为文本复述。

常见的文本复述类型有（来源某篇论文，不记得哪篇了）：
在这里插入图片描述

语料库概况

PKU Paraphrase Bank: A Sentence-Level Paraphrase Corpus for Chinese
论文地址
 语料库地址

数据来源

40部经典小说的95个译本，小说包括《基督山伯爵》《飘》《大卫科波菲尔》等。即每部小说选取2-3个译本。译本来源于网络。

这是很经典的枢轴（pivot）方法：采用同一文本（枢轴）的不同翻译作为文本复述模板的资源获取方法。

“由于每次翻译过程均要求源语言和目标语言中文本的语义保持一致，因此可以预期最后得到的文本在语义上能跟输入文本保持一致。”

举个文章中的例子（上面两句互为文本复述，下面两句互为文本复述）：在这里插入图片描述

数据规模

509,832 (50w+) 组句对，大约是常见语料库（例如：Twitter News URL Corpus) 的10倍以上。平均每句23.05个词。

无监督语料库生成方法

流程概览

语料库生成流程图

数据预处理

要点已经总结在上图中了。
首先，通过OCR工具将下载的pdf文件转换为plain text.
在格式清理的步骤中，需要将匹配用不到的头注，脚注，页码和注释等手动规则移除。
然后，通过。？！进行句子分割。少于6个单词的句子并入前句。
最后一步，利用Sun等人2011年提出的无监督方法Enhancing Chinese word segmentation using unlabeled data进行中文分词。

分数模型

这个语料库选取的数据来源有一个好处：由于原始翻译是按照句到句的方式进行的，所以理想情况下每一句都能够对应上。在这个前提下，我们就把问题转化成了两个文本T¹和T² 中句子的对齐/匹配问题。

整体模型

对于T¹中的每一个句子T_i¹ 和T² 中的每一个句子T_j²，定义对齐矩阵C:
$C_{ij}=\left\{ \begin{array}{rcl} 1 & & {if\ T_i^1\ and\ T_j^2\ match}\\ 0 & & {otherwise} \end{array} \right.$

我们优化的目标是：

$\textup{max.} \sum_{i=1}^{N^1}\sum_{j=1}^{N^2}C_{ij}\times \textup{SCORE}(T_i^1, T_j^2)$

其中，N¹为文本T¹中的句子数目，N¹为文本T²中的句子数目。即，我们优化的目标是尽量使分（SCORE）高的句对T_i¹ 和T_j²得到C_ij=1.

同时，我们有约束条件：
$\sum_{i=1}^{N^1}C_{ij}=1\ for\ all\ 1 \leq i \leq N^1$

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。