论点挖掘小技巧

最新推荐文章于 2022-10-27 16:16:12 发布

weixin_42001089

最新推荐文章于 2022-10-27 16:16:12 发布

阅读量1.6k

点赞数

分类专栏：算法人工智能机器学习文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42001089/article/details/123789181

版权

算法同时被 2 个专栏收录

56 篇文章 2 订阅

订阅专栏

人工智能机器学习

48 篇文章 50 订阅

订阅专栏

前言

今天给大家介绍一个有意思的NLP任务：观点挖掘即Argument Mining ，其目的是要挖掘人的观点，应用场景也比较广泛。如果从大的技术选型角度看，Argument Mining基本上属于实体关系抽取，即要完成两个基本任务：

(1)观点抽取即实体抽取

(2)观点之间的关系抽取即实体关系抽取

论文链接：https://arxiv.org/pdf/2203.12881v1.pdf

下面我们就快速来看看这篇paper用了什么小技巧

领域自适应

这里主要就是先用类似Reddit这种具有讨论的语料来对预训练模型（具体用的是RoBERTa ）进行领域自适应，其实就是训练MLM，为了更好的进行后续Argument Mining，这里MASK的是一些Opinion, Causation, Re- buttal, Fact presentation, Assumption, Summary类的，具体比如I think ，这样有利于模型更能注意学习到观点类的通用句式

论点抽取

这里本质上就是一个实体抽取任务，用的是经典的BIO模式

论点关系抽取

这里本质上就是一个关系抽取任务，这里作者稍微提出用了点trick，具体的是用了prompt，而不是分类模型，因为prompt任务在形式上和领域自适应阶段的MLM 更match，但是想使用prompt就面临两个问题

(a)模版怎么设计

(b)模版设计后，当预测完相应的token后，token到关系的映射map怎么设计，毕竟模版的token是很多种的，很难显示的枚举。

关于第一个问题，作者设计的模版是"[USER-i] said <component1> [MASK] [MASK] [MASK] [USER-j] said <com- ponent2>"

其中component1就是第二步抽取的观点，可以看到这里主要用了三个MASK，为什么是三个而不是四个，五个，这里作者是参考了领域自使用阶段的MLM任务，那里是三个。

关于第二个问题，作者放弃了显式的枚举方式，而是改用隐式，即将MASK处预测的token的embeddings 进行concatenated 丢进一个MLP层即linear layer 进而进行一个关系分类即可

到这里本篇paper的全部做法已经介绍完毕了，接下来就是实验结果，大家对做法感兴趣可以具体去看paper中关于其单策略的消融实验。

总结

（1）论点挖掘也是一个研究方向，感觉应用场景还挺多的，大家做项目或者产品的时候可以关注一波。

（2）本质上还是个实体关系抽取任务，只不过这里的实体具体为观点，这里的方法大家也可以泛化到其他类型的实体关系抽取任务试一试。

（3）领域自适应这个要重视，这里其实有一个很大的逻辑就是知识注入，这块其实是一个很大研究课题，也非常重要。

关注

欢迎关注，下期再见啦~

欢迎关注笔者微信公众号：

github:

Mryangkaitong · GitHubhttps://github.com/Mryangkaitong

知乎：

小小梦想 - 知乎

weixin_42001089

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

weixin_42001089 CSDN认证博客专家 CSDN认证企业博客

码龄6年

215: 原创

2万+: 周排名

4141: 总排名

117万+: 访问

: 等级

7854: 积分

1708: 粉丝

1265: 获赞

592: 评论

4805: 收藏

私信

关注

分类专栏

调研 16篇
计算机基础 2篇
后台 1篇
html 1篇
chm 1篇
docker
打包
人工智能机器学习 48篇
skia 7篇
skia中文乱码
神经网络 10篇
github 2篇
Linux 4篇
线程 1篇
强化学习 4篇
spark 5篇
caffe
大数据 9篇
算法 56篇
python 13篇
java 1篇

最新评论

知识融合之dedupe
weixin_53192791: 用文中给的训练数据可以吗？
LightGBM源码阅读+理论分析（处理特征类别，缺省值的实现细节）
fangfang_plus: 请教下，如果是样本加权的话，对分裂节点有影响吗，样本加权作用在什么地方哈
如何自动筛选高质量的指令微调数据喂给大模型？
HHYY_7: 博主您好请问下那个MoDS算法我理解是在一个sft数据集上筛选高质量的数据集，筛选之后的数据集是之前数据集的子集，是不是就是说这个子集做sft之后的效果比原数据集好是吗
如何自动筛选高质量的指令微调数据喂给大模型？
紧警谨: IFD分子分母公式都漏了负号
扩散模型代码剖析
LeafMorning: 你好，想知道跑一个DDPM，图像256×256，t选择300。会占用多少显存？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。