论点挖掘小技巧

前言

今天给大家介绍一个有意思的NLP任务:观点挖掘即Argument Mining ,其目的是要挖掘人的观点,应用场景也比较广泛。如果从大的技术选型角度看,Argument Mining基本上属于实体关系抽取,即要完成两个基本任务:

(1)观点抽取即实体抽取

(2)观点之间的关系抽取即实体关系抽取

论文链接:https://arxiv.org/pdf/2203.12881v1.pdf

下面我们就快速来看看这篇paper用了什么小技巧

领域自适应

这里主要就是先用类似Reddit这种 具有讨论的语料来对预训练模型(具体用的是RoBERTa )进行领域自适应,其实就是训练MLM,为了更好的进行后续Argument Mining,这里MASK的是一些Opinion, Causation, Re- buttal, Fact presentation, Assumption, Summary类的,具体比如I think ,这样有利于模型更能注意学习到观点类的通用句式

论点抽取

这里本质上就是一个实体抽取任务,用的是经典的BIO模式

论点关系抽取

这里本质上就是一个关系抽取任务,这里作者稍微提出用了点trick,具体的是用了prompt,而不是分类模型,因为prompt任务在形式上和领域自适应阶段的MLM 更match,但是想使用prompt就面临两个问题

(a)模版怎么设计

(b)模版设计后,当预测完相应的token后,token到关系的映射map怎么设计,毕竟模版的token是很多种的,很难显示的枚举。

关于第一个问题,作者设计的模版是"[USER-i] said <component1> [MASK] [MASK] [MASK] [USER-j] said <com- ponent2>"

其中component1就是第二步抽取的观点,可以看到这里主要用了三个MASK,为什么是三个而不是四个,五个,这里作者是参考了领域自使用阶段的MLM任务,那里是三个。

关于第二个问题,作者放弃了显式的枚举方式,而是改用隐式,即将MASK处预测的token的embeddings 进行concatenated 丢进一个MLP层即linear layer 进而进行一个关系分类即可

到这里本篇paper的全部做法已经介绍完毕了,接下来就是实验结果,大家对做法感兴趣可以具体去看paper中关于其单策略的消融实验。

总结

(1) 论点挖掘也是一个研究方向,感觉应用场景还挺多的,大家做项目或者产品的时候可以关注一波。

(2) 本质上还是个实体关系抽取任务,只不过这里的实体具体为观点,这里的方法大家也可以泛化到其他类型的实体关系抽取任务试一试。

(3) 领域自适应这个要重视,这里其实有一个很大的逻辑就是知识注入,这块其实是一个很大研究课题,也非常重要。

 关注

欢迎关注,下期再见啦~

欢迎关注笔者微信公众号:

github:

Mryangkaitong · GitHubhttps://github.com/Mryangkaitong

知乎:

小小梦想 - 知乎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值