大规模领域词汇库项目DomainWordsDict：涵盖68个领域、共计916万的词汇库资源开放

置顶

「已注销」

于 2021-08-28 12:27:47 发布

阅读量2.9k

点赞数 1

分类专栏：语言资源语言信息处理自然语言处理文章标签：自然语言处理人工智能语言资源

本文链接：https://blog.csdn.net/lhy2014/article/details/119966534

版权

DomainWordsDict是一个包含68个领域、916万个词汇的专业词典，适用于文本分类和知识增强。该项目旨在填补中文领域词汇资源的空白，通过领域关键词增强自然语言处理模型的性能。数据来源于领域垂直网站和文本特征词提取，按领域权重排序，可用于多种NLP任务。

摘要由CSDN通过智能技术生成

项目概述

DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库，可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候，领域词汇可以作为一项重要的领域特征加入到模型当中，可以提升领域性模型的性能。
地址：https://github.com/liuhuanyong/DomainWordsDict

项目由来

1、领域性是自然语言处理中十分重要的一类问题，不同的领域之间在文本形式、用词、表达上都存在差异。而领域词汇作为一个领域的表示是用来区分领域的常规手段，例如，在没有标注语料进行有监督的领域文本分类中，利用领域关键词进行匹配、计数、排序的方式即可以完成这一任务。
2、当前，纵观中文开放语言资源，并未有出现较大规模的领域性资源，如领域的wordembedding词向量、领域的关键词库。而这一资源在传统方法进行文本处理具有较大价值。

为了填补这一空白以及对领域性词库进行基础语言资源建设，本项目被提出。