随着人工智能和深度学习的快速发展,大模型技术正在深刻变革各行各业。而开源作为推动技术进步的重要力量,也成为我们关注的焦点。然而,如何有效评估开源大模型技术体系的影响力,从而推动、鼓励众多企业和团队持之以恒地通过技术开源来推动创新迭代,是业内普遍关注的重点问题。
基于此,2024 年 12 月 15 日下午在 CCAI(中国人工智能大会)上,CSDN 联合多家单位,首次发布大模型技术体系的开源影响力评估方法及榜单,以系统的评估方法旨在通过量化指标、社区参与度等维度,全面衡量开源大模型技术体系的贡献。同时以榜单激励更多的创新与合作。这意味着业界对大模型技术体系在开源领域影响力有了全面衡量和展示方式,为 AI 技术体系的发展提供了新的评估视角。
从 2017 年的 Transformer 开始,我们看到多头自注意力机制的提出为后续预训练模型带来创新契机。随后,BERT 在 2018 年大放异彩,将预训练—微调的模式推向成熟,并催生了开源数据和工具生态的初步形成。至 2019 年,Hugging Face 的 Transformers 框架让研究者和工程师更轻松地使用和改进预训练模型,各类新模型如 XLNet、RoBERTa、T5 接连诞生,为后续的大规模模型如 GPT-3、GPT-4 的出现奠定基础,进一步加速了大模型技术的演进和开源生态的发展。
我们期望能够从数据、模型、系统和评测平台四个技术维度,对大模型技术体系的开源影响力进行全面评估。
- 从数据层面来看,当前高质量数据资源稀缺,数据开源能够促进多方共享与积累,为模型训练提供更多样化的支持;
- 从模型角度看,大模型的开源多样性不仅能满足不同应用需求,还能加速技术创新与模型迭代;
- 在系统领域,开源框架能够适配多种硬件环境,尤其是支持多种 AI 芯片的多样化发展,提升系统的兼容性与性能;
- 而在评测平台方面,评测的全面性和多学科协作尤为重要,开源评测体系能够推动维度丰富的评估指标共建,提升模型的可靠性和实际应用价值。
开源贯穿数据、模型、系统与评测平台的各环节,为大模型的持续优化和生态构建奠定基础。
基于以上开源对大模型的促进作用,越来越多的研究和项目采用开源的方式进行开发。然而,传统的评估标准已经无法全面反映其真正的价值和贡献。因此,我们需要从新的维度来审视开源影响力,尤其是在大模型技术体系的构成上。具体来说,这不仅包括模型本身的使用量,还涉及到大模型的多样性、社区的活跃度等多个方面。这些多维度衡量不仅能够帮助我们更好地理解开源大模型的现状,也为我们未来的研究和应用指明了方向,具体包括:
- 数据是大模型构建过程的起点,反映了生态系统的底层基础设施能力;
- 模型是大模型技术体系的核心成果,衡量技术生态的创新能力和实际应用价值;
- 系统是支持大模型开发和部署的关键,衡量整个生态的技术支持能力和易用性;
- 评测平台方法是衡量模型性能和生态实际影响力的重要手段。
这四个维度共同支撑了大模型的开发、优化和应用,贯穿于其从基础资源到应用效果的全生命周期,总计 44 个细节指标数据。
- 数据维度:包括数据集覆盖度、数据集在大模型生命周期覆盖度、及数据处理工具等评估维度;
- 模型维度:包括模型的使用量、模型模态覆盖度、模型规模、贡献者活跃度、模型开源开放度等评估维度;
- 系统维度:包括支持大模型开发、部署和运行的系统工具,涵盖了算子库、并行训练与推理框架、贡献者活跃度以及深度学习框架等评估维度;
- 评测平台维度:作为衡量大模型性能和稳定性的关键环节,直接影响模型的应用效果和优化方向,关键指标包括评测榜单、评测模型数量、评测数据集丰富性和评测方法。
这种全面覆盖大模型技术体系的评估框架,确保了衡量开源大模型技术体系时的系统性和科学性,为业界提供了一个权威的参考标准。
榜单的数据来源广泛,并采用了严格的统计方法,确保了数据的准确性和权威性。统计方法特别注重时效性和全面性,以反映大模型技术体系在开源领域的真实影响力。综合各维度的统计方法如下:
- 数据指标:同一项目的多个仓库 ,根据仓库 README 文件及关联论文划分每个数据仓库所属的模态、生命周期。数据来源包括:Hugging Face、ModelScope 魔搭社区、GitHub、GitCode、OpenDataLab、Google 官网、Meta 官网、OpenI 启智等;
- 模型指标:仅统计月下载量大于 200、且在机构所有仓库里排名前 100 的仓库。 来源包括:Hugging Face、ModelScope 魔搭社区、GitHub、GitCode、OpenI 启智等;
- 系统指标:支持异构训练、接入训练芯片厂商数量、大模型生命周期支持程度均通过从 GitHub、GitCode、Paddle、MindSpore、TensorFlow、PyTorch 等网站获取。
- 评测平台指标:评测模型、评测数据数量从 2023 年后开始统计。仅统计公开可查的模型,为数据集发布而评测的模型不计其中。 来源包括:Hugging Face、GitHub、Gitee 以及各机构官网(OpenCompass、LMArena、HELM、FlagEval 等)。
此处数据统计还补充了 Google 搜索以及部分其它平台,共计获取了 7025 个链接中的多种指标数据,覆盖了模型、系统、数据和评测平台等多个维度。这一庞大的数据收集工作,保证了统计的全面性和深度。所有下载量相关数据均为统计当月的下载量,而其他数据则为统计当月的截止值。这意味着,榜单中的数据能够及时捕捉到每个月的最新趋势和动态,为业界提供动态更新的参考。
同时,本次评估采用权重均分的方式进行打分,也就是四个维度的权重相等。具体计算方式使用 Min-Max 标准化对各个维度下的每项具体指标进行正则化得到指标数值,并对这些数据求平均得到该维度下的得分,从而确定分榜单排名。
基于以上评估方法及数据的收集与统计,我们以后将定期生成大模型开源影响力榜单,一方面展示最新的行业数据和趋势动态,同时,更希望以此助力推动大模型开源的快速发展与行业影响力。数据收集时间周期设定为每月 15 日,以确保数据的连续性和一致性。同时,为了使开源大模型影响力评估的数据来源更加透明和公正,所有数据来源链接均公示在 GitHub 仓库(https://github.com/brucecui0120/OSIR-LMTS)中。
首次数据收集完成于 2024 年 11 月 15 日,本次因时间和数据所限,首期榜单仅选取了十多家全球最具代表性的大模型技术机构的开源产品/技术体系进行统计分析,综合数据、模型、系统、评测平台四个维度,首期大模型技术体系的开源影响力榜单(2024 年 12 月版)如下:
首期榜单公示期为 2024 年 12 月 16 日至 2025 年 1 月 16 日。如您对榜单的评选或对榜单的数据统计来源有所建议及补充,欢迎点击 GitHub 仓库(https://github.com/brucecui0120/OSIR-LMTS)链接进行反馈,我们将不断完善项目及机构数量、提高数据完整度与质量,不断提升榜单的公正力和影响力。