领域词汇知识库的类型、可用资源与构建技术漫谈

词是语言系统中重要的语言单元,词语是开展文本处理的基础,在语义表示上具有比字符更丰富的表达能力。词语具有领域特性,不同的领域具有不同的词汇体系,如军事领域、医疗领域、公共治安领域、金融领域之间存在着很大的差异性。这种领域性的特性,一方面可用于领域分类、领域标签化、领域区分、关键词提取以及特征词提取,也可支持知识图谱知识体系如本体与实例体系的搭建。另一方面,也提出了领域词汇的抽取,领域词汇之间语义关联的抽取、领域词汇的扩展、领域词汇知识库的构建等多项任务。与此相关的领域词汇挖掘技术是自然语言处理中的一项关键技术,也是支持公司业务落地和应用的必备能力之一。本期文章将紧紧围绕领域词汇知识库(以下简称领域词库)这一主题,对数地工场的领域词汇功能、领域词库的常见类型、领域词汇的构建技术和相关案例进行介绍。

一、数地工场的领域词汇功能
数地工场 (https://nlp.zhiwenben.com) 已经上线2周时间,在语义计算模块上,提供了针对词汇的语义联想和概念抽象两项功能;在信息抽取模块提供了关键词抽取功能,此后将提供其他相关功能。

1、 语义联想
数地工场中的语义联想,提供了针对用户输入词语路关联的近义词、反义词和相关词接口,例如输入“尊敬”一词,可以联想出“尊崇”、“崇敬”、“敬服”等近义词;“侮慢”、“蔑视”等反义词;“叩首”、“祭拜”等相关词,可用于词语拓展和关联推荐等应用。

在这里插入图片描述

2、 概念抽象
概念抽象,指针对用户输入的某个词语,得到该词语的迭代上位抽象路径,该路径在事件抽象、关联词拓展方面、加强对既定事物的认知等方面大有用处。例如,对于“航空母舰”并在这里插入图片描述不了解的人来说,可以通过概念抽象这一功能,得到了“航空母舰->船->交通工具->器具->无生物->物质->万物->实体”这条抽象路径,进一步形成“船”和“交通工具”的认知。

3、 关键词抽取
关键词抽取,可针对段落或文本进行处理,得到具有代表性的特征词集合,这一项常作为文本特征提取及表示使用。例如,针对当前“美国伊朗局势升级”这一主题下的文章,可以通过关键词提取技术,提取出相关的关键词列表,如“伊朗”、“美国”、“美伊”及相应的权重等。
在这里插入图片描述

二、领域词库的常见类型
不同的领域词库能够支持不同的应用,领域词库可以细分为领域特征词库、领域停用词库、领域情感词库、领域抽象词库、领域语义词库、领域事件词库等6种词库。

1、领域特征词库
领域特征词库,与领域强相关,具有领域区别能力形成的词语集合,如体育领域中常见的“篮球”、“足球”等词ÿ

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值