MacBert实验以及思考

Macbert的关于mask的策略

我们mask策略是wwm + n-gram 也就是说 n-gram选取的粒度采用的是词而不是wordpiece
在这个基础上 再加上 相似词策略 来跑模型。
并在OCNIL、AFQMC、IFLYTEK、TNEWS、CMNLI这几个传统数据集测试效果。
其中, OCNIL是自然语言推理 、 AFQMC是句子相似度判断、IFLYTEK是长文本分类、TNEWS是短文分分类、CMNLI是
具体数据集介绍:
https://github.com/CLUEbenchmark/CLUE

实验记录

一开始的实验记录:
加入ngrams策略的效果在这几个任务数据集上没有明显的提升
【后面发现是因为参数的问题 – 把seq len调大,一开始用的是128 后面调为512】
参数调好之后,实验结果有比较明显的提升。
【这里可以比较具体地说,有些任务数据文本比较短 128训练出来的模型 效果还不错,但对于文本数据比较长的,比如文章这些,模型的效果就没有提别明显的提升。】

单独做相似词替换的策略 效果特别差,原因分析可能是
我仔细分析了一下,想着会不会是因为相似词跟原来的词过度相似,比如 ”好的“ 的相似词是 ”好吧“ ; ”想念“ 的相似词是 ”思念“ 等等
那表示 模型在训练的过程中,已经提前看到了部分的自己,训练可能不够充分。【过度相似的问题
所以加上了相似词之后,效果反而下降的比较明显。
【解决的方案是请教原作者,该论文具体细节不公开,没有开源】
【作者给出的解释是】
相似词这个策略是 是wwm+ngram-masking的基础上做的,所以考虑可能这两者之间存在一定的关联关系。
个人理解是 如果只对一个词进行相似词替换的话,那么模型训练的可能不够充分,但如果是对多个连续的词 同时进行相似词替换,对上面所述的过度相似问题有所缓解。

【补充一些实验细节】
在做相似词的实验过程中,也有出现各种各样的问题,比如在找相似词替换的时候,遇到长度不一致的相似词那该咋办。
一开始做实验的时候并没有注意到这个问题,比如川普的相似词是特朗普,如果直接替换的话 那么会造成seq len长度发生变化,对模型的影响也非常大。
【相关解决方案】
(1)在候选列表中找不到等长相似词的时候会替换为随机token。–也是原作者的做法 但考虑到随机词的比例可能过大
(2)设置模型 在面临相似词跟原词长度不一致的问题,是跳转到下一个长度一致的相似词来解决的。-- 但训练时间太久了
(2)直接自己创造一个相似词和原词长度都一致的候选列表-我选择了第二种,具体方法是 用自己的大概20G的语料库来训练一个词向量,再提取相似词

单独的Ngram实验结果记录:
添加了N-gram masking有明显的提升,在AFQMC 比较句子相似度任务 和OCNLI自然语言推理上有不错的提升
在短文本分类和长文本分类效果一般。下面截图是实验数据请添加图片描述
那么为什么单独Ngram策略会有明显的提升呢?
相当于一开始是word piece的阶段 --> 词的阶段也就是wwm -->ngram的阶段 多个词
其本质的含义都是当掩码遮住的词语越来越多的时候,进一步地减低了模型对周边词的依赖
迫使模型学习的更加充分和尽可能去学习更远距离的特征表示,特别是在语料非常充分的时候,模型能够学习得更好

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jianafeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值