论文笔记--ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolin

最新推荐文章于 2025-04-09 15:43:47 发布

Isawany

最新推荐文章于 2025-04-09 15:43:47 发布

阅读量172

点赞数

分类专栏：论文阅读文章标签：论文阅读 ernie 文心一言语言模型自然语言处理

本文链接：https://blog.csdn.net/weixin_38124427/article/details/134403164

版权

论文笔记--ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora

1. 文章简介
2. 文章概括
3 文章重点技术
- 3.1 CAMLM
- 3.2 BTMLM
4. 文章亮点
5. 原文传送门
6. References

1. 文章简介

标题：ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
作者：Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
日期：2021
期刊：arxiv preprint

2. 文章概括

文章提出了ERNIE-M模型，模型可通过单语言的语料将多语言的信息进行对齐，从而克服平行语料不足的缺陷。

3 文章重点技术

文章提出两种方法来增强模型对不同语言的知识对齐能力：CAMLM(Cross-attention masked language modeling)和BTMLM(Back-translation masked language modeling)。

3.1 CAMLM

CAMLM会基于平行语料将跨语言的语义表达进行对齐。简单来说，给定平行语料对

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Isawany

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

自然语言处理NLP——ERNIE-M：基于回译机制的“预训练-微调”多语言模型

转载请标明出处，完整项目/代码详见github：https://github.com/yiru1225

12-01

5184

本篇博客主要介绍一种基于回译机制的预训练-微调多语言模型——ERNIE-M。

ERNIE-M论文笔记

朝闻道

01-27

230

公众号系统之神与我同在 https://arxiv.org/abs/2012.15674 概述：通过两个阶段的自定义的预训练任务来增强多语言语义的表征第一阶段：基于cross-attention机制的mlm任务（CAMLM），这里，x指的是一种语言，y指的是另一种语言，M指的是要预测的token，这样的句子对构成了并行语料库（parallel corpus）。（注：MMLM和TLM是目前已有的处理多语言的baseline模型）其中MMLM模型的特点是：M token的预测只依赖（或者是只at.

参与评论您还未登录，请先登录后发表或查看评论

BERT和ERNIE谁更强？这里有一份4大场景的细致评测

weixin_34384681的博客

06-17

802

BERT和ERNIE，NLP领域近来最受关注的2大模型究竟怎么样？刚刚有人实测比拼了一下，结果在中文语言环境下，结果令人意外又惊喜。具体详情究竟如何？不妨一起围观下这篇技术评测。 1. 写在前面随着2018年ELMo、BERT等模型的发布，NLP领域终于进入了“大力出奇迹”的时代。采用大规模语料上进行无监督预训练的深层模型，在下游任务数据上微调一下，即可达到很好的效果。曾经需要反复调参、精心设计...

Multilingual多语言预训练的那些套路

fareise的博客

05-01

1891

这篇文章就为大家整理了Multilingual多语言预训练语言模型的套路，包括XLM、XLM-R、ERNIE-M、Unicoder、ALM等5个经典模型，以及这些模型之间的演进关系。

EMNLP 2021 | 百度：多语言预训练模型ERNIE-M

Kaiyuan_sjtu的博客

12-17

1978

作者|‍Chilia‍哥伦比亚大学 nlp搜索推荐整理|NewBeeNLP2021年伊始，百度发布多语言预训练模型ERNIE-M，通过对96门语言的学习，使得一个模型能同时理...

ERNIE：Enhanced Language Representation with Informative Entities.pdf

08-09

In this paper, we utilize both large-scale textual corpora and KGs to train an enhanced language representation model (ERNIE), which can take full advantage of lexical, syntactic, and knowledge ...

论文笔记--ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs

weixin_38124427的博客

07-30

524

ERNIE-ViL：首次引入Scene graph训练的多模态模型

论文笔记--ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING

weixin_38124427的博客

05-15

368

BERT系列文章阅读之ERNIE3.0：基于统一骨架和双下游任务的语言模型训练

论文精读清华ERNIE：Enhanced Language Representation with Informative Entities

weixin_51221144的博客

12-10

1612

ERNIE原论文背景在大规模语料库上预训练的BERT等语言表示模型可以很好地从纯文本中捕获丰富的语义模式，并进行微调以提高各种 NLP 任务的性能。然而，现有的预训练语言模型很少考虑合并知识图谱，它可以提供丰富的结构化知识事实以更好地理解语言。作者认为 KG 中的实体信息可以通过外部知识增强语言表示。在本文中，通过大规模文本语料库和 KG 来训练增强的语言表示模型（ERNIE），该模型可以同时充分利用词汇、句法和知识信息。预训练模型可以从文本中捕获丰富的语义信息，使多种 NLP 任务受益，可以分为以

2020.3 Enhanced meta-learning for cross-lingual named entity recognition with minimal resources 阅读笔记

能找到答案的，只有自己

03-11

1014

Motivation Problem Setting: a) One source language with rich labeled data. b) No labeled data in the target language. 现有的 Cross-lingula NER 方法可以分为两大类： a) Label projection (generate labeled data i...

基于预训练语言模型的文本生成研究综述

zenRRan的博客

10-08

4355

EMNLP'21中预训练模型最新研究进展

zenRRan的博客

09-30

2416

Python编程学习第六课之Python程序的初识

qq_35124097的博客

10-06

585

在全面开始学习我们的Python学习语言之前，需要小白童鞋们先了解一些关于程序的相关概念，如同十一我们外出旅行一般，去哪里旅行以及将会经过哪里都需要我们非常熟悉。本节课会教给大家程序、程序调试以及调试过程中可能遇到的问题等基础概念。 Python作为一门不断发展与普及的语言，还在不断更新中。在学习时，建议找一些学习伙伴一起来学习和讨论，效果更佳。如果想学习Python，欢迎加入Python学习交流群（1104627612），一起督促，一起学习。 1.程序程序是根据语言提...

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

PaddlePaddle

03-17

1480

近日，百度提出知识增强的语义表示模型 ERNIE（Enhanced Representation through kNowledge IntEgration），并发布了基...

论文阅读笔记——RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION

Multiple_x的博客

04-05

1231

RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION 论文阅读笔记

论文阅读笔记：Denoising Diffusion Implicit Models （5）

u010948546的博客

04-05

880

这里使用中的σt\sigma_tσt是可以自己定义的量。有两种特殊的情况： 1、σt2=0\sigma_t^2=0σt2=0：此时， xt−1x_{t-1}xt−1满足公式（3） xt−1=αt−1⋅xt−1−αt⋅ztαt+1−αt−1−σt2⋅zt+σt2ϵt=αt−1⋅x0+1−αt−1⋅zt \begin{equation} \begin{split} x_{t-1}&=\sqrt{\alpha_{t-1}}\cdot\frac{x_t-{\sqrt{1-\alpha_t}\cdot z_t

论文阅读笔记：Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching