助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源

句子变换,是指根据给定中文句子,借助某种语言处理手段,扩展出一定数据规模的中文句子集合,是一个从1到N的过程,目的在于解决搜索(查询扩展)、分类(样本扩充)、抽取(数据回标)、推荐与生成(关联引导)等多个工业级应用任务。我们发现,在处理以上几个任务的过程中,句子级别的操作,是以句子中的词为基本单位来实现的,即以词的更换、删除,语序和组合规则的重组等操作为基本手段。将词的这种操作依据进行有效整理和形式化,是一项重要的工作,我们在实际开发过程中,对该工作的成果进一步归类成“抽象知识”、“同义知识”、“简称知
摘要由CSDN通过智能技术生成

句子变换,是指根据给定中文句子,借助某种语言处理手段,扩展出一定数据规模的中文句子集合,是一个从1到N的过程,目的在于解决搜索(查询扩展)、分类(样本扩充)、抽取(数据回标)、推荐与生成(关联引导)等多个工业级应用任务。

我们发现,在处理以上几个任务的过程中,句子级别的操作,是以句子中的词为基本单位来实现的,即以词的更换、删除,语序和组合规则的重组等操作为基本手段。

将词的这种操作依据进行有效整理和形式化,是一项重要的工作,我们在实际开发过程中,对该工作的成果进一步归类成“抽象知识”、“同义知识”、“简称知识”三大类知识库,并将其中的部分数据集开放至OpenKG,供大家下载使用。

本期内容以开放的句子变换为主题,对常见的句子变换操作典型应用场景、数据地平线开放的三大知识三元组概要,以及它们在实际句子变换中所能发挥的作用进行介绍。

一、句子变换操作的典型应用场景

句子变换在搜索(查询扩展)、分类(样本扩充)、抽取(数据回标)、推荐与生成(关联引导)等典型NLP传统任务中均有应用。具体体现在基于句子标准化的舆情文本聚合,基于句子扩展的信息采集与推荐、基于句子变换的数据扩充和数据回标等三个方面。

1、 基于句子标准化的舆情文本聚合

文本去重是舆情分析的一项重要任务,解决的方法包括基于标题的去重、基于文本全文的去重、基于文档摘要的去重、基于标题与文档元数据的去重等多种途径。

处理速度和计算复杂度是去重过程中需要考虑的两个重要因素,尤其是在项目工期紧且需要大规模进行文本去重时,将特定文本进行代表内容的标准化和规范化处理成为了一个重要手段

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值