MacBert实验以及思考

jianafeng

已于 2022-03-17 18:19:21 修改

阅读量2.3k

点赞数 1

分类专栏：实验记录文章标签：深度学习自然语言处理机器学习

于 2022-03-16 23:47:11 首次发布

本文链接：https://blog.csdn.net/Jiana_Feng/article/details/123539083

版权

实验记录专栏收录该内容

2 篇文章

订阅专栏

Macbert的关于mask的策略

我们mask策略是wwm + n-gram 也就是说 n-gram选取的粒度采用的是词而不是wordpiece
在这个基础上再加上相似词策略来跑模型。
并在OCNIL、AFQMC、IFLYTEK、TNEWS、CMNLI这几个传统数据集测试效果。
其中， OCNIL是自然语言推理、 AFQMC是句子相似度判断、IFLYTEK是长文本分类、TNEWS是短文分分类、CMNLI是
具体数据集介绍：
https://github.com/CLUEbenchmark/CLUE

实验记录

一开始的实验记录：
加入ngrams策略的效果在这几个任务数据集上没有明显的提升
【后面发现是因为参数的问题 – 把seq len调大，一开始用的是128 后面调为512】
参数调好之后，实验结果有比较明显的提升。
【这里可以比较具体地说，有些任务数据文本比较短 128训练出来的模型效果还不错，但对于文本数据比较长的，比如文章这些，模型的效果就没有提别明显的提升。】

单独做相似词替换的策略效果特别差，原因分析可能是
我仔细分析了一下，想着会不会是因为相似词跟原来的词过度相似，比如 ”好的“ 的相似词是 ”好吧“ ； ”想念“ 的相似词是 ”思念“ 等等
那表示模型在训练的过程中，已经提前看到了部分的自己，训练可能不够充分。【过度相似的问题】
所以加上了相似词之后，效果反而下降的比较明显。
【解决的方案是请教原作者，该论文具体细节不公开，没有开源】
【作者给出的解释是】
相似词这个策略是是wwm+ngram-masking的基础上做的，所以考虑可能这两者之间存在一定的关联关系。
个人理解是如果只对一个词进行相似词替换的话，那么模型训练的可能不够充分，但如果是对多个连续的词同时进行相似词替换，对上面所述的过度相似问题有所缓解。

【补充一些实验细节】
在做相似词的实验过程中，也有出现各种各样的问题，比如在找相似词替换的时候，遇到长度不一致的相似词那该咋办。
一开始做实验的时候并没有注意到这个问题，比如川普的相似词是特朗普，如果直接替换的话那么会造成seq len长度发生变化，对模型的影响也非常大。
【相关解决方案】
（1）在候选列表中找不到等长相似词的时候会替换为随机token。–也是原作者的做法但考虑到随机词的比例可能过大
（2）设置模型在面临相似词跟原词长度不一致的问题，是跳转到下一个长度一致的相似词来解决的。-- 但训练时间太久了
（2）直接自己创造一个相似词和原词长度都一致的候选列表-我选择了第二种，具体方法是用自己的大概20G的语料库来训练一个词向量，再提取相似词

单独的Ngram实验结果记录：
添加了N-gram masking有明显的提升，在AFQMC 比较句子相似度任务和OCNLI自然语言推理上有不错的提升
在短文本分类和长文本分类效果一般。下面截图是实验数据请添加图片描述
那么为什么单独Ngram策略会有明显的提升呢？
相当于一开始是word piece的阶段 --> 词的阶段也就是wwm -->ngram的阶段多个词
其本质的含义都是当掩码遮住的词语越来越多的时候，进一步地减低了模型对周边词的依赖，
迫使模型学习的更加充分和尽可能去学习更远距离的特征表示，特别是在语料非常充分的时候，模型能够学习得更好