金磊 明敏 发自 凹非寺
量子位 | 公众号 QbitAI
开源最彻底的大模型来了——130亿参数,无需申请即可商用。
不仅如此,它还附带着把全球最大之一的中文数据集也一并开源了出来:600G、1500亿tokens!
这就是来自昆仑万维的Skywork-13B系列,包含两大版本:
Skywork-13B-Base:该系列的基础模型,在多种基准评测中都拔得头筹的那种。
Skywork-13B-Math:该系列的数学模型,数学能力在GSM8K评测上得分第一。
在各大权威评测benchmark上,如C-Eval、MMLU、CMMLU、GSM8K,可以看到Skywork-13B在中文开源模型中处于前列,在同等参数规模下为最优水平。
而Skywork-13B系列之所以能取得如此亮眼的成绩,部分原因离不开刚才我们提到的数据集。
毕竟清洗好的中文数据对于大模型来说可谓是至关重要,几乎从某种程度上决定了其性能。
但昆仑万维能将如此“至宝”无偿地给奉献出来,不难看出它对于构建开源社区、服务开发者的满满诚意。
除此之外,昆仑万维Skywork-13B此次还配套了“轻量版”大模型,是在消费级显卡中就能部署和推理的那种!
Skywork-13B下载地址(Model Scope):
https://modelscope.cn/organization/skywork
Skywork-13B下载地址(Github):
https://github.com/SkyworkAI/Skywork
接下来,我们进一步来看下Skywork-13B系列更多的能力。
无需申请即可商用
Skywork-13B系列大模型拥有130亿参数、3.2万亿高质量多语言训练数据。