助力句子变换：35W抽象、43W同义、13W简称三大知识库对外开源

最新推荐文章于 2020-12-31 13:08:37 发布

「已注销」

最新推荐文章于 2020-12-31 13:08:37 发布

阅读量1.2k

点赞数 1

分类专栏：自然语言处理语言资源知识图谱文章标签：知识图谱三元组简称同义抽象

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lhy2014/article/details/107179362

版权

本文介绍了句子变换的应用场景，如舆情文本聚合、信息采集与推荐、数据扩充与回标，并开源了35万中文抽象、43万中文同义、13万中文简称三大知识库，这些资源对NLP任务具有重要价值。

摘要由CSDN通过智能技术生成

句子变换，是指根据给定中文句子，借助某种语言处理手段，扩展出一定数据规模的中文句子集合，是一个从1到N的过程，目的在于解决搜索（查询扩展）、分类（样本扩充）、抽取（数据回标）、推荐与生成（关联引导）等多个工业级应用任务。

我们发现，在处理以上几个任务的过程中，句子级别的操作，是以句子中的词为基本单位来实现的，即以词的更换、删除，语序和组合规则的重组等操作为基本手段。

将词的这种操作依据进行有效整理和形式化，是一项重要的工作，我们在实际开发过程中，对该工作的成果进一步归类成“抽象知识”、“同义知识”、“简称知识”三大类知识库，并将其中的部分数据集开放至OpenKG，供大家下载使用。

本期内容以开放的句子变换为主题，对常见的句子变换操作典型应用场景、数据地平线开放的三大知识三元组概要，以及它们在实际句子变换中所能发挥的作用进行介绍。

一、句子变换操作的典型应用场景

句子变换在搜索（查询扩展）、分类（样本扩充）、抽取（数据回标）、推荐与生成（关联引导）等典型NLP传统任务中均有应用。具体体现在基于句子标准化的舆情文本聚合，基于句子扩展的信息采集与推荐、基于句子变换的数据扩充和数据回标等三个方面。

1、基于句子标准化的舆情文本聚合

文本去重是舆情分析的一项重要任务，解决的方法包括基于标题的去重、基于文本全文的去重、基于文档摘要的去重、基于标题与文档元数据的去重等多种途径。

处理速度和计算复杂度是去重过程中需要考虑的两个重要因素，尤其是在项目工期紧且需要大规模进行文本去重时，将特定文本进行代表内容的标准化和规范化处理成为了一个重要手段

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。