句子变换,是指根据给定中文句子,借助某种语言处理手段,扩展出一定数据规模的中文句子集合,是一个从1到N的过程,目的在于解决搜索(查询扩展)、分类(样本扩充)、抽取(数据回标)、推荐与生成(关联引导)等多个工业级应用任务。
我们发现,在处理以上几个任务的过程中,句子级别的操作,是以句子中的词为基本单位来实现的,即以词的更换、删除,语序和组合规则的重组等操作为基本手段。
将词的这种操作依据进行有效整理和形式化,是一项重要的工作,我们在实际开发过程中,对该工作的成果进一步归类成“抽象知识”、“同义知识”、“简称知识”三大类知识库,并将其中的部分数据集开放至OpenKG,供大家下载使用。
本期内容以开放的句子变换为主题,对常见的句子变换操作典型应用场景、数据地平线开放的三大知识三元组概要,以及它们在实际句子变换中所能发挥的作用进行介绍。
一、句子变换操作的典型应用场景
句子变换在搜索(查询扩展)、分类(样本扩充)、抽取(数据回标)、推荐与生成(关联引导)等典型NLP传统任务中均有应用。具体体现在基于句子标准化的舆情文本聚合,基于句子扩展的信息采集与推荐、基于句子变换的数据扩充和数据回标等三个方面。
1、 基于句子标准化的舆情文本聚合
文本去重是舆情分析的一项重要任务,解决的方法包括基于标题的去重、基于文本全文的去重、基于文档摘要的去重、基于标题与文档元数据的去重等多种途径。
处理速度和计算复杂度是去重过程中需要考虑的两个重要因素,尤其是在项目工期紧且需要大规模进行文本去重时,将特定文本进行代表内容的标准化和规范化处理成为了一个重要手段