探索MiniCPM:端侧大语言模型的无限潜力
MiniCPM项目地址:https://gitcode.com/gh_mirrors/mi/MiniCPM
项目介绍
MiniCPM是由面壁智能与清华大学自然语言处理实验室共同开发的一系列端侧大模型,旨在揭示端侧大语言模型的无限潜力。主体语言模型MiniCPM-2B仅有24亿(2.4B)的非词嵌入参数量,总计2.7B参数量。经过特殊训练和优化,MiniCPM-2B在多个评测集上表现卓越,甚至在某些能力上超越了更大规模的模型。
项目技术分析
MiniCPM-2B通过SFT(监督微调)和DPO(直接偏好优化)技术进行了深度优化。在公开综合性评测集上,MiniCPM-2B与Mistral-7B表现相近,尤其在中文、数学和代码能力上更优。在MTBench评测集上,MiniCPM-2B超越了Llama2-70B-Chat等众多代表性开源大模型。此外,基于MiniCPM-2B构建的端侧多模态大模型MiniCPM-V 2.0在多个测试基准中实现了7B以下模型的最佳性能,并在OpenCompass榜单上超过了Qwen-VL-Chat 9.6B等更大参数规模的模型。
项目及技术应用场景
MiniCPM系列模型适用于多种应用场景,包括但不限于:
- 移动设备部署:经过Int4量化后,MiniCPM可在手机上进行部署推理,流式输出速度略高于人类说话速度。
- 多模态交互:MiniCPM-V 2.0展现出领先的OCR能力,适用于需要场景文字识别的应用。
- 学术研究:完全开源的模型参数供学术研究和有限商用,支持二次开发和深入研究。
项目特点
- 高性能:在多个评测集上表现优异,超越了多个更大规模的模型。
- 低成本部署:支持在普通显卡上进行高效参数微调,二次开发成本较低。
- 多模态能力:不仅限于文本处理,还具备强大的多模态交互能力。
- 开源共享:完全开源的模型参数,支持学术研究和有限商用,促进社区的共同发展。
MiniCPM不仅展示了端侧大语言模型的强大潜力,还为学术界和工业界提供了一个高效、灵活且成本效益高的解决方案。无论是对于研究者还是开发者,MiniCPM都是一个值得探索和应用的开源项目。