研读论文报告—《大规模英语动词多词表达式注释语料库的构建》

 

 

论文出处:2018paper of LREC

http://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf

 

 

背景:多次表达式的复杂以及出现率非常大。动词表达式的歧义问题以及前人工作较为少。一般都做名词多词表达式。

基于上述背景:此实验主要是构建一个全新的动词多词表达式语料库,非充满技术含量的实验,主要方法是众包技术,人工注释,以及各种语法知识。

数据来源:华尔街日报大量英语文章的主体。开源:https://github.com/naist-cl-parsing/Verbal-MWE-annotations

格式如上图。

1.介绍:从华尔街日报中抽取了大量的VMWES并做好排序和初步筛选工作。

              筛选规则有去掉be动词的以及带有名词的VMWES。

              做好目录分类:介词动词,动词小品词,轻动词短语,动词加名词加介词,半固定结构。

2. 构建注释语料库:众包技术(用来消歧义)(众包技术:简单来说就是技术问题靠大家解决,分配给互联网上自愿完成任务的                                  个人)  详细可以看这里~

                                web注释平台,给专业人士一个平台对VMWES进行注释。对注释员进行非常严格的筛选。     

3.检查:对于出现了重复及包含的问题:  进行合并或者取包含词(不是被包含那个)

4.展望:继续扩大语料库以及挖掘VMWES更多的信息。

我把我的注释PDF放在这里(我的资源)。(不知道为什么现在不能规定积分,默认了下载要五个积分。。)

第一次研读论文,经验不足,以此记录。

 

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 、4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、 4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值