「翻译」BERT 多语言模型

本文介绍了BERT的多语言模型,包括Cased和Uncased两种版本,适用于104种语言。文章讨论了不同语言的标记化方法,强调了多语言Cased模型对非拉丁字母表语言的优势。此外,通过XNLI数据集展示了多语言BERT的性能,并提供了微调示例,强调在资源丰富语言如中文上的表现。
摘要由CSDN通过智能技术生成

Update: 2018/12/17

我们对中文使用基于字符的标记化,对所有其他语言使用 WordPiece 标记化。两种模型都应该开箱即用,不需要修改任何代码。

模型
目前有两种多语言模型可供选择。我们不打算发布更多单语言模型,但我们可能会在未来发布这两种版本的BERT-Large版本:

  • BERT-Base, 多语言 Cased (新版, 推荐): 104种语言, 12-layer, 768-hidden, 12-heads, 110M parameters
  • BERT-Base, 多语言 Uncased (初版, 不建议使用): 102种语言, 12-layer, 768-hidden, 12-heads, 110M parameters
  • BERT-Base, 中文: 简体中文、繁体中文, 12-layer, 768-hidden, 12-heads, 110M parameters

多语言 Cased 模型修复了许多语言的规范化问题,因此建议使用非拉丁字母表的语言(对于大多数使用拉丁字母的语言,通常表现的比较好)。 使用此模型时,请确保将–do_lower_case = false传递给run_pretraining.py和其他脚本。

请参阅多语言模型支持的语言列表。多语言模型确实包含中文(和英文),但如果您的 Fine-tuning 数据仅限中文,中文模型可能会产生更好的结果。

结果
为了评估不同的系统,我们使用 XNLI 数据集数据集,它是 MultiNLI 的一个版本,其中开发集和测试集已经由人类翻译成15种语言。请注意,训练集是机器翻译的(我们使用的是XNLI提供的翻译,而不是Google NMT)。

系统 英文 中文
XNLI Baseline - Translate Train 73.7 67.0
XNLI Baseline - Translate Test 73.7 68.3
BERT - Translate Train Cased 81.9 76.6
BERT - Translate Train Uncased 81.4 74.2
BERT - Translate Test Uncased 81.4 70.1
BERT - Zero Shot Uncased 81.4
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值