前言
今天给大家介绍一个有意思的NLP任务:观点挖掘即Argument Mining ,其目的是要挖掘人的观点,应用场景也比较广泛。如果从大的技术选型角度看,Argument Mining基本上属于实体关系抽取,即要完成两个基本任务:
(1)观点抽取即实体抽取
(2)观点之间的关系抽取即实体关系抽取
论文链接:https://arxiv.org/pdf/2203.12881v1.pdf
下面我们就快速来看看这篇paper用了什么小技巧
领域自适应
这里主要就是先用类似Reddit这种 具有讨论的语料来对预训练模型(具体用的是RoBERTa )进行领域自适应,其实就是训练MLM,为了更好的进行后续Argument Mining,这里MASK的是一些Opinion, Causation, Re- buttal, Fact presentation, Assumption, Summary类的,具体比如I think ,这样有利于模型更能注意学习到观点类的通用句式
论点抽取
这里本质上就是一个实体抽取任务,用的是经典的BIO模式
论点关系抽取
这里本质上就是一个关系抽取任务,这里作者稍微提出用了点trick,具体的是用了prompt,而不是分类模型,因为prompt任务在形式上和领域自适应阶段的MLM 更match,但是想使用prompt就面临两个问题
(a)模版怎么设计
(b)模版设计后,当预测完相应的token后,token到关系的映射map怎么设计,毕竟模版的token是很多种的,很难显示的枚举。
关于第一个问题,作者设计的模版是"[USER-i] said <component1> [MASK] [MASK] [MASK] [USER-j] said <com- ponent2>"
其中component1就是第二步抽取的观点,可以看到这里主要用了三个MASK,为什么是三个而不是四个,五个,这里作者是参考了领域自使用阶段的MLM任务,那里是三个。
关于第二个问题,作者放弃了显式的枚举方式,而是改用隐式,即将MASK处预测的token的embeddings 进行concatenated 丢进一个MLP层即linear layer 进而进行一个关系分类即可
到这里本篇paper的全部做法已经介绍完毕了,接下来就是实验结果,大家对做法感兴趣可以具体去看paper中关于其单策略的消融实验。
总结
(1) 论点挖掘也是一个研究方向,感觉应用场景还挺多的,大家做项目或者产品的时候可以关注一波。
(2) 本质上还是个实体关系抽取任务,只不过这里的实体具体为观点,这里的方法大家也可以泛化到其他类型的实体关系抽取任务试一试。
(3) 领域自适应这个要重视,这里其实有一个很大的逻辑就是知识注入,这块其实是一个很大研究课题,也非常重要。
关注
欢迎关注,下期再见啦~
欢迎关注笔者微信公众号:
github:
Mryangkaitong · GitHubhttps://github.com/Mryangkaitong
知乎: