「翻译」BERT 多语言模型

最新推荐文章于 2024-05-08 09:41:56 发布

morize

最新推荐文章于 2024-05-08 09:41:56 发布

阅读量5.3k

点赞数

分类专栏： Deep Learning 文章标签： BERT Deep Learning

本文介绍了BERT的多语言模型，包括Cased和Uncased两种版本，适用于104种语言。文章讨论了不同语言的标记化方法，强调了多语言Cased模型对非拉丁字母表语言的优势。此外，通过XNLI数据集展示了多语言BERT的性能，并提供了微调示例，强调在资源丰富语言如中文上的表现。

摘要由CSDN通过智能技术生成

Update: 2018/12/17

我们对中文使用基于字符的标记化，对所有其他语言使用 WordPiece 标记化。两种模型都应该开箱即用，不需要修改任何代码。

模型
目前有两种多语言模型可供选择。我们不打算发布更多单语言模型，但我们可能会在未来发布这两种版本的BERT-Large版本：

BERT-Base, 多语言 Cased (新版, 推荐): 104种语言, 12-layer, 768-hidden, 12-heads, 110M parameters
BERT-Base, 多语言 Uncased (初版, 不建议使用): 102种语言, 12-layer, 768-hidden, 12-heads, 110M parameters
BERT-Base, 中文: 简体中文、繁体中文, 12-layer, 768-hidden, 12-heads, 110M parameters

多语言 Cased 模型修复了许多语言的规范化问题，因此建议使用非拉丁字母表的语言（对于大多数使用拉丁字母的语言，通常表现的比较好）。使用此模型时，请确保将–do_lower_case = false传递给run_pretraining.py和其他脚本。

请参阅多语言模型支持的语言列表。多语言模型确实包含中文（和英文），但如果您的 Fine-tuning 数据仅限中文，中文模型可能会产生更好的结果。

结果
为了评估不同的系统，我们使用 XNLI 数据集数据集，它是 MultiNLI 的一个版本，其中开发集和测试集已经由人类翻译成15种语言。请注意，训练集是机器翻译的（我们使用的是XNLI提供的翻译，而不是Google NMT）。

系统	英文	中文
XNLI Baseline - Translate Train	73.7	67.0
XNLI Baseline - Translate Test	73.7	68.3
BERT - Translate Train Cased	81.9	76.6
BERT - Translate Train Uncased	81.4	74.2
BERT - Translate Test Uncased	81.4	70.1
BERT - Zero Shot Uncased	81.4

关注