由于最近跟DeepMind的合作,我们可以训练非常大的预训练语言模型。在这个过程中,浏览中文社区时候,又让我看到了让我想吐的大牛散播谣言,加上最近谷歌那个1.3trillion的模型,又被吹疯了,然后又是胡言乱语。
强调几点:
- 即使不是100%,中国大部分研究根本没办法研究预训练语言模型,因为耗费算力太大。我们跟deepmind合作的算力是TPU V3-2048, 大概是20000块V100,实际上肯定不会相差这么小,我们自己根据TPU V3-64常年测试的结果,发现大概其实应该是12万块V100左右。没人能训练的起。
- 没人能训练的起的另一个缘故,就是中文没有好的语料库。比较大的最多T级,但是Common Crawl是PB级别的。T5中用的GLUE比起CLUE我就别比了,太侮辱人了。
- 没数据、没算力咋办?随便训练一个。然后发现还不如哈工大BERT WWM,于是开始说ALBERT是骗人。
- Multi-task training,尤其是ERNIE说的在现实中实际上是几乎没用的,这在T5 paper当中说的贼清楚。不知道一群挑战谷歌的人是怎么想的。
- 那个1.3trillion的模型极其有意义,不是用来秀算力的。那个模型实际上用了mixture of expert的方法,减少了一些复杂度,使得训练效果提升了。
- 除了这个以外,使用