- 博客(4)
- 收藏
- 关注
原创 LLM之GLM/ChatGLM系列
与其他大模型如GPT-3,OPT-175B,BLOOM-176B模型相比,GLM-130B的一个显著优势就是在进行INT4量化后,模型的性能没有收到很大损害,究其原因在于GLM-130B模型的参数分布相对较窄,可以用更少的字节数表示出全部的权重分布,因此在进行INT4量化时能够在保持相对多的性能,并且通过实验观察到INT4和FP16版本之间的差距随着GLM模型尺寸的扩大而进一步缩小,更进一步表现GLM模型在量化方面的天然优势。上述架构的调整带来的收益是模型的上下文长度变大,从2K-->128K。
2024-07-17 01:20:35 1724
原创 LLaMA:开放高效的基础语言模型
本文介绍了LLaMA,这是一个包含从7B到65B大小的模型的集合。本文在万亿个Tokens上训练了模型,并且在不使用任何私有数据集的情况下达到了较好的效果。特别地,在绝大多数榜单上,LLaMA-13B模型的效果超过了GPT3(175B),LLaMA- 65B的效果与Chinchilla-70B、PaLM-540B具有可比性。
2023-08-02 22:09:34 264
原创 中文大模型评估基准:C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
不同的LLM在简单场景(如简单聊天)下的表现可能是差不多的,真正体现不同模型之间差距的应该是比较复杂的任务场景,因此需要构建一个复杂全面的评估基准C-Eval。
2023-07-17 11:15:54 3947
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人