ACL 2022 泛读文章（一）

最新推荐文章于 2022-10-10 12:02:33 发布

be_humble

最新推荐文章于 2022-10-10 12:02:33 发布

阅读量358

点赞数

分类专栏：论文笔记文章标签：自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/be_humble/article/details/124987993

版权

论文笔记专栏收录该内容

17 篇文章 3 订阅

订阅专栏

ACL 2022 泛读文章（一）

本期内容有5篇工作，后续会逐渐增加，欢迎关注和订阅。

低资源小语种 NLI 评测数据集构建
阶段式训练大模型策略，减少开销
提高生成模型语义连贯性的解码策略（a simple way）
CLIP中embedding具有较低各向异性分析
基于词表进行合成数据，提高多语种模型mBert在小语种NLP任务上的表现

一. AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages

论文地址：[2104.08726] AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages (arxiv.org)

主要内容

本文主要针对目前多语言模型如mbert，XLM，XLM-R等语言模型提供一个评估数据集，指出目前低资源的语种，NLI评测任务基本都是句法级，没有高级语义的评测数据集，所以使用美国10种土著语言构建评测数据集，除此之外还包括15种高资源语言。

评价

这种共享数据集的论文，比较好发高水平论文，但是构建数据集，然后使用现有模型进行实验的过程也很繁琐，大多数小实验室基本没有能力构建过大数据集，并需要合理证明其数据集对目前模型有很好评测区分效果。

二. bert2BERT: Towards Reusable Pretrained Language Models

论文地址：[2110.07143] bert2BERT: Towards Reusable Pretrained Language Models (arxiv.org)

本文是刘群老师组的一篇工作

主要内容

本文主要提出了一种递进式训练大模型的方法，来减少开销，加快收敛速度

方法一：使用小模型的参数作为大模型训练参数初始化，

宽度扩展使用函数映射方式，基于function preserving（对于深度每层对应进行映射）改进为使用本层和上层进行共同映射参数，可以加快模型收敛速度。
深度扩展，则进行stack操作

方法二：两阶段训练，先对多个子结构（layer）进行训练，他们共享上层模型和fc层，最后全模型训练。类似stackBERT和MSLT的操作。

实验主要与从零训练bert，stackBert，MSLT进行开销对比和glue训练集成绩对比实验。

主要参考文献：

递进式训练大模型方法：

stackBERT Efficient Training of BERT by Progressively Stacking (mlr.press)

MSLT [2011.13635] Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for BERT Training Speedup (arxiv.org)

使用小模型参数初始化大模型方法：

function-preserving：[1511.05641] Net2Net: Accelerating Learning via Knowledge Transfer (arxiv.org)

评价：

本文提出一种基于小模型加快大模型训练方式，虽然方法基本都是基于前人稍微改进点，目前也仅仅在Bert和GPT上进行实验，不过有一定意义，如果组合上那个使用小模型上对大模型进行调参的方法，以后都可以在小模型进行实验，最后一步再到大模型进行展示效果，会节省大量资源和时间，不过本文参数初始化和两阶段方面证明较少，虽然有效果，但应该仍有很大空间进行改进。而且函数映射的方式进行模型参数扩展过于繁琐，可扩展性差。

三. Coherence boosting: When your pretrained language model is not paying enough attention

论文地址：[2110.08294] Coherence boosting: When your pretrained language model is not paying enough attention (arxiv.org)

项目地址：zhenwang9102/coherence-boosting(ACL 2022) https://arxiv.org/abs/2110.08294 (github.com)

主要内容：

本文主要基于目前生成模型的解码策略一般不能很好的学习到长文本语义上下文，无法得到更好的语义连贯性，提出了一种非常简单的decode解码策略，在预测next—token任务时，一般解码都是直接根据全部上文进行注入模型，得到预测得分，而本文解码策略，则是将全部上文的预测得分与截取部分上文进行预测next token得分进行加权求和，得到最后预测next token的得分，作者实验表明这样进行解码得到的语义连贯性会较好一些，但这样解码意味着每一个token要过两边模型，直接double了解码时间。

主要创新点就在下面几行代码中：

long_logits = F.log_softmax(model(context)[0][:, -1, :].detach().cpu(), dim=1).numpy().reshape(-1)
short_logits = F.log_softmax(model(context[:, -partial_length:])[0][:, -1, :].detach().cpu(), dim=1).numpy().reshape(-1)

cb_logits = (1 + alpha) * long_logits - alpha * short_logits

其中long_logits指使用全部上文过生成模型预测next_token的得分，而short_logits指预测词和之前partial_length长度的上文进行预测。最后使用预设超参数alpha对两得分进行加权计算。

评价

就是提出一个局部和全局共同计算解码策略中next token的得分，而这种局部和全局机制，仅仅只是过两遍模型，而且选择多长partial_length 和alpha都需要自己调参，这里最好设置为可学习参数，或者根据不同输入可以调节不同partial_length和alpha效果应该能提升些，除此之外，过两边模型会大大降低推理速度，最好将这种全局和局部策略整合到一个模型中完成，提高推理速度。

四.Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations

论文地址：[2203.07511] Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations (arxiv.org)

主要内容：

本文主要就是说明CLIP 过程得到的文本表示向量的各向异性很低，可以得到一种很好的句子向量表示，然后认为是CLIP将文本和视觉语义进行对比，得到更好的语义表示，实验部分则是CLIP向量和GPT2向量进行在词级和句子级的各向异性分析比较。

评价：

感觉本文只是简单分析一下CLIP各向异性低，是更好表示句子的向量。针对缓解bert，GPT等预训练模型得到向量具有各向异性的问题，有bert-flow，bert-whitening，SimCTC等经典工作，其中SimCTC以及之后的工作已经指出通过对比训练的方式得到的Embedding向量各向异性就会很低，本身的预训练策略也可以理解，对比学习训练目标是整个句子语义上的表示，而bert，GPT等预测token的目标则会过分关注上下文和token直接的关系，对整个句子向量表示，就很难达到很低的各向异性。

而CLIP在句子向量分布表现好的原因，首先对比学习损失就是余弦相似度，与各向异性目标相同，得到向量具有更低的各向异性也很正常，同时CLIP数据4亿的文本图片对，相较于GPT的数据质量更高，数据本身具备的信息量更多，表现更好也有一定道理。

总的来说，本文并没有提出有价值的观点和工作，只是跟风clip和缓解各向异性，进行分析，简单实验，而且对比实验也没有提到其他缓解各向异性的工作，最后尝试自圆其说而已。不过CLIP确实值得跟风，这几天基于CLIP，模仿clip工作应该会层出不穷，目前笔者也尝试找一个好的角度利用clip。