[论文阅读笔记06]OpenUE:An Open Toolkit of Universal Extraction from Text

40 篇文章 5 订阅
39 篇文章 14 订阅

一,论文题目

OpenUE: An Open Toolkit of Universal Extraction from Text
OpenUE:一个开源的通用文本信息抽取工具
发表会议:EMNLP 2020 (Demo)

二,本文作者

张宁豫,浙江大学讲师/alibaba,研究方向为自然语言处理、知识图谱;
本文是浙江大学和阿里达摩院合作发表在EMNLP2020上的Demo论文。

三, 摘要

提出了大多数的NLP任务都可以用单一模型来表示的思想,提供了开源与可扩展的抽取工具OpenUE【3】;另外布署了restful的在线demo【4】,包括对relational triple extraction, slot & intent detection, event extraction等任务,最后设计了实验来证明OpenUE是有效的。

四,实验效果

4.1 表1:槽填充和意图检测的评估结果

在这里插入图片描述

4.2 表2:实体和关系抽取的评估结果

在这里插入图片描述

4.3 表3:事件抽取提取的评估结果

在这里插入图片描述

五,在线效果【4】

在这里插入图片描述

六,工具包设计与实现

在这里插入图片描述

6.1 Tokenization

支持word-level tokenization与subword-level tokenization; 可以扩展接口BasicTokenizer类;

6.2 Classifification

分类是句子层的任务,输入为{[CLS], w1, w2, . . . , wn, [SEP]},[CLS]输出表达了整个句子的信息,采用全连接的交叉熵作为损失函数来学习。

6.3 Sequence Labeling

sequence labeling设计成token层的任务。输入为{[CLS], relation, [SEP], w1, w2, …, wn}.输出学习softmax function或者CRF.

6.4 Extractor

作为最后的输出,包括了分类结果与序列标记。

七,实验设计与证明

7.1 关系三元组抽取

a.四个数据集:NYT (Riedel et al.,2010), WebNLG (Gardent et al., 2017), SKE and ChMedIE.
NYTNYT数据集最初是由远程监督方法生成的。 它由1.18M句子组成,有24种预定义的关系类型。English
WebNLG包含246个预定义的关系类型。English
SKE2019 Language and Intelligence Challenge发布。包含50种关系类型,训练文本超过20万Chinese
ChMedIE语料为医学领域【5】,从中国卫生网站中爬取,包括4类关系。Chinese
b.四个基线模型:Tagging (Zheng et al., 2017),CopyR(Zeng et al., 2018),HRL (Takanobuet al., 2019) ,CasRel(Wei et al., 2019)
Tagging一种新标记方案的端到端方法;
CopyR带有复制机制的Seq2Seq学习框架;
HRL通过分层强化学习,将相关实体作为关系的arguments进行关系提取。
CasRel一种新的级联二进制标记框架,关系建模作为函数,将主题映射到句子中的对象。
c.结果

见上面表2。

7.2 Event Extraction

a. 两个数据集:ACE05,DuEE
ACE0533个事件子类型和36个角色类English
DuEE数据来源【6】,65个事件类型和121个参数角色。Chinese
b. 三个基线任务:DMCNN (Chen et al., 2015) ,dbRNN (Sha et al., 2018),JMEE (Liu et al., 2018)
DMCNN使用动态多池化来保存多事件的信息
dbRNN添加了连接Bi-LSTM的依赖项,用于事件提取。
JMEE引入了syntactic shortcut arcs来增强信息流并且使用基于attention的GCN建模图数据。
c.结果

见上面表3.

7.3 Slot Filling and Intent Detection

a.两个banchmark NLU数据集:SNIPS-NLU【7】与ATIS(Tur et al.,2010)
SNIPS-NLU72个插槽标签和7个意图类型
ATIS120个插槽标签和21个意图类型
b. 6个基线模型
CNN TriCRF介绍了一种基于卷积神经网络(CNN)的槽填充顺序标记模型
Joint Seq提出的RNN对于槽填充,并使用RNN的最后状态去预测语言的意图。
Attention BiRNN提出BiRNN作为encoder-deconder模型,用于处理意图及槽填充。
Slot-gated Full Atten提出slot gate思想,采用这个思想去学习意图与槽关注向量的关系,以获得更好的语义结果。
Capsule-NLU提出基于胶囊神经网络去完成槽填充,通过dynamic routing-by-agreement方法发现意图。
Joint-BERT采用标准的BERT分类和token分类pipline去联合对插槽和意图建模。
c. 结果

见上面表1.

八,应用场景

在这里插入图片描述

8.1 Relational Triple Extraction

三元组抽取目的是为了从非结构化文本抽取实体以及实体间蕴含的关系。
本文中提供了一种简单的思路,即首先对与句子的关系进行分类,然后进行序列标记以提取实体。把大量没有关系的句过滤掉,可以提高计算效率。
OpenUE还提供了从Web提取知识的简单实现,包含了使用爬虫来获取原始网页,并从网页文本中提取事实知识。

8.2 Event Extraction

OpenUE先对文档进行基于事件类型分类,进而并基于序列标注进行角色抽取。OpenUE集成了无需触发词检测的事件抽取功能。

8.3 Slot Filling and Intent Detection

自然语言理解(NLU)对于对话系统至关重要,它通常包括意图检测和槽填充两个任务,为用户话语形成语义解析。

九. 总结

总的来说,还是比较喜欢这类的论文,接地气,毕竟用这个可以解决工程上的一些问题,这个是一个学术研究与工程实现的一个小例子,把研究出来的内容,应用到工程上,提供相关代码及相关demo,同时它也跟一些经典方法进行了对比,也证明了提出的简单单一模型是可行的。
谈到的三个经典问题,都是比较清晰的,对于新手学习也是有指导性的,这里是从一个系统去考虑这个大的方向,有启发性,耐人寻味。
作为工程师,下一步就是对代码的学习了,通过学习代码来深入了解这篇内容的应用价值。

十. 参考

【1】EMNLP2020 - OpenUE:一个开源的通用文本信息抽取工具, https://mp.weixin.qq.com/s/0usTktgcTW-SUCUidBAESQ
【2】论文链接,https://www.aclweb.org/anthology/2020.emnlp-demos.1.pdf
【3】代码链接,https://github.com/zjunlp/openue
【4】Demo链接, http://openue.top/
【5】39健康网, http://www.39.net/
【6】2020语言与智能技术竞赛:事件抽取任务,https://aistudio.baidu.com/aistudio/competition/detail/32
【7】Natural Language Understanding benchmark,https://github.com/sonos/nlu-benchmark

happyprince,https://blog.csdn.net/ld326/article/details/112210056

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值