来自:深度学习的知识小屋
2020语言与智能技术竞赛--已经缓缓落下了帷幕,在此次比赛中,主办方引入了事件抽取任务, 吸引了非常多的队伍加入比赛,而赛后各位参赛大佬也陆续分享出了自己的比赛方案,因此小编在这里做一小波的汇总~(期待更多的分享!!!!)
比赛链接: https://aistudio.baidu.com/aistudio/competition/detail/32?isFromCcf=true
介绍方案之前先来看看此次事件抽取的任务具体是什么:
具体任务
本次比赛事件抽取的具体任务为识别出句子中的事件类型,并标注出该事件对应的事件论元,例如时间、地点、人物等,如下例所示: 输入:
{
"text":"历经4小时51分钟的体力、意志力鏖战,北京时间9月9日上午纳达尔在亚瑟·阿什球场,以7比5、6比3、5比7、4比6和6比4击败赛会5号种子俄罗斯球员梅德韦杰夫,夺得了2019年美国网球公开赛男单冠军。",
"id":"6a10824fe9c7b2aa776aa7e3de35d45d"
}
输出:
官方baseline
链接: https://github.com/PaddlePaddle/Research/tree/master/KG/DuEE_baseline
PaddleHub版本: https://github.com/PaddlePaddle/Research/tree/master/KG/DuEE_baseline/DuEE-PaddleHub
官方baseline是基于PaddlePaddle完成的,具体是通过Pipelined的方法,即基于序列标注方法先进行事件检测(ed), 然后进行论元的识别来完成事件抽取。除了github的代码外,主办方还贴心地提供了AiStudio下的baseline演示系统:
AI Studio 基线系统示例
https://aistudio.baidu.com/aistudio/projectdetail/357419
AI Studio 基线系统示例(基于PaddleHub)
https://aistudio.baidu.com/aistudio/projectdetail/381711
苏剑林: 将EE建模为普通的实体标注问题
链接: https://kexue.fm/archives/7321
代码: https://github.com/bojone/lic2020_baselines/blob/master/ee.py
这里介绍苏神的分享方案!苏神在自己的博客中对阅读理解、关系抽取和事件抽取都给出了自己的baseline(膜大佬!!!)。对于事件抽取,由于此次任务并不需要识别出事件触发词而是只需要识别出事件类型和事件论元,因此苏神将其建模为一个序列标注问题。具体的数据处理方式和基本模型,都可以在代码中找到: https://github.com/bojone/lic2020_baselines/blob/master/ee.py
邱震宇: 使用MRC方式做事件抽取任务的尝试
链接: https://zhuanlan.zhihu.com/p/141237763
代码: https://github.com/qiufengyuyi/event_extraction
总体来说,这一方法包括三个部分构成:
识别事件类型: 先单独将事件类型抽取任务转化为一个多标签分类任务,使用模型得到每个文本包含的事件类型,然后将结果输出到论元抽取中;
抽取事件论元: 事件论元抽取。使用MRC的方式进行论元抽取,包括MRC问题的构建、模型的构建以及span的预测。
优化事件论元抽取模块
具体地,大家可以在知乎阅读邱震宇大佬的分享;
OneWaymyway: PaddleHub版本Baseline + 两段式抽取
链接: https://aistudio.baidu.com/aistudio/projectdetail/545914
代码: https://github.com/onewaymyway/DuEE_2020
看到OneWaymyway的名字,你是否想起了微信群里大家熟悉的学习委员呢(●ˇ∀ˇ●)!
这里分享便是学习委员的比赛思路,他的做法是通过对PaddleHub版的baseline进行修改,基于先识别事件类型,再识别事件对应的论元的两段式方法进行事件抽取任务。具体地,大家可以在链接中了解他的做法。而学习委员在比赛中的积极乐观和超级努力认真的态度,也让小编深深瑞思拜!!!
CSDN和你在一起^_^ 的赛后小结
链接: https://blog.csdn.net/weixin_42462804/article/details/106253193
和你在一起^_^也在CSDN上分享了自己的参赛经历总结,他的思路也是从baseline入手,逐步进行一些小的改进。大家有兴趣可以前往他的博客阅读嗷!
说个正事哈
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记