[文献阅读]——AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

最新推荐文章于 2022-07-26 20:01:05 发布

Muasci

最新推荐文章于 2022-07-26 20:01:05 发布

阅读量254

点赞数

分类专栏：文献阅读之家

本文链接：https://blog.csdn.net/jokerxsy/article/details/116668531

版权

51 篇文章 5 订阅

订阅专栏

引言

细粒度方法和粗粒度方法各自的优缺点:

本文通过可视化attention maps表明：

本文工作:

在这里插入图片描述

图1. AMBERT

两个encoder共享参数。

预训练损失函数:

数据集:

Chinese
- fine-grained:就是character
- coarse:word segmentation tool developed at ByteDance
- 分词都是用WordPiece embeddings（？）
English
- fine-grained:就是word
- coarse:
C vs E:Chinese中，coarse word占了47.0%；English中，coarse phrase占了13.7%。

微调损失函数(分类任务):

在这里插入图片描述

AMBERT-Combo:两个encoder不共享参数
AMBERT-Hybrid:和original AMBERT不同之处在于，一个encoder，且只用一次，该encoder的输出端就是fine-grained和coarse-grained inps的concatenation

多种任务:

目前不太明白AMBERT怎么做token级别的分类任务

样例分析:

变体分析:

AMBERT VS COMBO
通过计算粗粒度和细粒度的[cls]的相似度发现，AMBERT的相似度远远高于COMBO的
AMBERT VS HYBRID
通过第一层的attention权重发现，AMBERT-Hybrid的细粒度token过分关注于粗粒度token，而AMBERT联合了完整的细粒度和粗粒度的信息