文章目录 背景 参数设置 参数量比较 运行时间比较 分析 🎉进入深度神经网络与PyTorch进阶专栏 | 🚀查看更多专栏内容 背景 这里主要比较了bert-base和albert-tiny。前者窄而深,后者宽而浅。需要注意的一点是,albert是对bert瘦了身,但只省了空间,没有省时间。因为虽然不同层共享了参数,但模型还是要经过这么多层算一遍。 假设词表大小为V,句子长度为S,词向量维度为H,层数为L,自注意力头数为A,对于ALBert,其嵌入分解维度为E。模型的下游任务为多分类,标签数为K。 参数设置