笔记整理 | 申时荣,东南大学博士
来源:ACL 2020
源码:https://github.com/shuaiwa16/ekd.git
摘要
事件检测(ED)是文本自动结构化处理的一项基本任务。由于训练数据的规模小,以前的方法在unseen/标记稀疏的触发词上效果较差,并且容易过度拟合密集标记的触发词。为了解决该问题,我们提出了一种新颖的扩展知识提炼(EKD)模型,以利用外部开放域触发知识来减少对注释中频繁触发词的内在偏见。在基准ACE2005上进行的实验表明,我们的模型优于9个强基准,对于unseen/标记稀疏的触发词特别有效。
介绍
事件检测(ED)的核心就是识别触发词,触发词识别是一项艰巨的任务,存在长尾问题。以基准ACE2005为例:频率小于5的触发词占总数的78.2%。长尾问题使监督方法容易过度拟合并且在看不见/稀疏标记的触发器上表现不佳。自动生成更多训练实例似乎是一种解决方案:通过自举扩展更多实例并从远程监督方法中扩展更多数据。但是,如表1所示,这