关于预训练语言的一些事情:谷歌那个1.3trillion的模型,以及驳斥某些胡说八道的结论

由于最近跟DeepMind的合作,我们可以训练非常大的预训练语言模型。在这个过程中,浏览中文社区时候,又让我看到了让我想吐的大牛散播谣言,加上最近谷歌那个1.3trillion的模型,又被吹疯了,然后又是胡言乱语。

强调几点:

  1. 即使不是100%,中国大部分研究根本没办法研究预训练语言模型,因为耗费算力太大。我们跟deepmind合作的算力是TPU V3-2048, 大概是20000块V100,实际上肯定不会相差这么小,我们自己根据TPU V3-64常年测试的结果,发现大概其实应该是12万块V100左右。没人能训练的起。
  2. 没人能训练的起的另一个缘故,就是中文没有好的语料库。比较大的最多T级,但是Common Crawl是PB级别的。T5中用的GLUE比起CLUE我就别比了,太侮辱人了。
  3. 没数据、没算力咋办?随便训练一个。然后发现还不如哈工大BERT WWM,于是开始说ALBERT是骗人。
  4. Multi-task training,尤其是ERNIE说的在现实中实际上是几乎没用的,这在T5 paper当中说的贼清楚。不知道一群挑战谷歌的人是怎么想的。
  5. 那个1.3trillion的模型极其有意义,不是用来秀算力的。那个模型实际上用了mixture of expert的方法,减少了一些复杂度,使得训练效果提升了。
  6. 除了这个以外,使用
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值