TPU (灵魂三问 WHAT? WHY? HOW?)

本文深入探讨了Google的TPU(张量处理单元),揭示了它在神经网络训练中的优势。通过对比CPU和GPU,阐述了TPU的特殊架构,包括16位大脑浮点格式、脉动数组和环形Reduce,以及如何利用TPU加速Keras模型的训练。文章揭示了为何TPU在处理大规模矩阵运算时能实现高效和节能。
摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg

本文长度为 5986 字,45 图表截屏

建议阅读 30 分钟


0引言


从 2018 年 10 月到 2019 年 6 月,NLP 三大模型横空出世,分别是 Google 的 BERT,OpenAI 的 GPT-2 和 CMU 和 Google 联手的 XLNet


除了模型强大,我们从新闻里看到最多的是就是训练时间长,而且费用惊人的贵。


  • BERT-large 模型在 16 Cloud TPU v3 下训练 4 天

  • GPT-2 模型在 32  Cloud TPU v3 下训练一周多

  • XLNet-large 模型在 128 个 Cloud TPU v3 下需要训练 2 天半


证据如下:


Training of BERT_LARGE was performed on 16 Cloud TPUs (64 TPU chips total). Each pretraining took 4 days to complete. -- BERT Paper

To clarity, it's 256 cores (8 cores per Cloud TPU). Training took a bit over a week. -- Open AI Author on Reddit

We train XLNet-Large on 512 TPU v3 chips for 500K steps with an Adam optimizer, linear learning rate decay and a batch size of 2048, which takes about 2.5 days. -- XLNet Paper


TPU v3 就是第三代 (2018) TPU,样子如下。


640?wx_fmt=png


而第一代 (2015) 和第二代 (2017) 的 TPU 样子如下 。


640?wx_fmt=png


查了下第三代 TPU 每个核心的价格是每小时 8 美元。


640?wx_fmt=jpeg


那么来计算一下 BERT, GPT-2 和 XLNet 的训练成本,它们分别用了 16、32、128 个 Pod,每个 Pod 含有 8 个核心 (core),计算


  • BERT:16 × 8 × 24 × 4 = 12288 美元

  • GPT-2:32 × 8 × 24 × 7 = 43008 美元

  • XLNet:128 × 8 × 24 × 2.5 = 61440 美元


和新闻里面的报道吻合:


  • BERT-large 模型在 16  Cloud TPU v3 下训练 4 天,花费 1.2 万美元

  • GPT-2 模型在 32  Cloud TPU v3 下训练一周多,花费 4.3 万美元

  • XLNet-large 模型在 128 个 Cloud TPU v3 下需要训练 2 天半,花费 6.1 万美元

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值