中国LLM研究所收集100+AI大模型资源

本文链接：https://blog.csdn.net/qq470603823/article/details/140879702

自ChatGPT为代表的大语言模型 (大型语言模型，LLM)出现以后，由于其惊人的类通用人工智能(AGI)的能力，掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的法学开源之后，业界涌现了非常多基于法学的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料，目前收录的资源已达100 + 个!

如果本项目能给您带来一点点帮助，麻烦点个⭐️ 吧 ~

同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起公关、并按照本项目的格式提供仓库链接、明星数、简介等相关信息、感谢 ~

常见底座模型细节概览:

底座	包含模型	模型参数大小	训练令牌数	训练最大长度	是否可商用
ChatGLM	ChatGLM/2/3 Base & Chat	6B	1T/1.4	2K/32K	可商用
美洲驼	LLaMA/2/3基地和聊天	7B/8B/13B/33B/70B	1T/2T	2k/4k	部分可商用
百川	百川/2基地 & 聊天	7B/13B	1.2T/1.4T	4k	可商用
Qwen	Qwen/1.5 Base & Chat	7B/14B/72B/110B	2.2T/3T	8k/32k	可商用
布卢姆	布卢姆	1B/7B/176B-MT	1.5T	2k	可商用
天鹰座	天鹰座/2基地/聊天	7B/34B	-	2k	可商用
InternLM	InternLM/2基本/聊天/代码	7B/20B	-	200k	可商用
混合	基地和聊天	8x7B	-	32k	可商用
彝族	基地和聊天	6B/9B/34B	3T	200k	可商用
DeepSeek	基地和聊天	1.3B/7B/33B/67B	-	4k	可商用
XVERSE	基地和聊天	7B/13B/65B/A4.2B	2.6T/3.2T	8k/16k/256k	可商用

ChatGLM:
- 地址:https://github.com/THUDM/ ChatGLM-6B
- 简介:中文领域效果最好的开源底座模型之一，针对中文问答和对话进行了优化。经过约1t标识符的中英双语训练，辅以监督微调，反馈自助，人类反馈强化学习等技术的加持
ChatGLM2-6B
- 地址:https://github.com/THUDM/ ChatGLM2-6B
- 简介:基于开源中英双语对话模型ChatGLM-6B的第二代版本，在保留了初代模型对话流畅，部署门槛较低等众多优秀特性的基础之上，引入了GLM的混合目标函数，经过了1.4t中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了32k，并在对话阶段使用8k的上下文长度训练;基于多查询注意力技术实现更高效的推理速度和更低的显存占用;允许商业使用。
ChatGLM3-6B
- 地址:https://github.com/THUDM/ ChatGLM3
- 简介:ChatGLM3-6B是ChatGLM3系列中的开源模型，在保留了前两代模型对话流畅，部署门槛低等众多优秀特性的基础上，ChatGLM3-6B引入了如下特性:更强大的基础模型: ChatGLM3-6B的基础模型ChatGLM3-6B-Base采用了更多样的训练数据，更充分的训练步数和更合理的训练策略;更完整的功能支持: ChatGLM3-6B采用了全新设计的提示格式，除正常的多轮对话外。同时原生支持工具调用 (函数调用) 、代码执行 (代码解释器) 和代理任务等复杂场景;更全面的开源序列: 除了对话模型ChatGLM3-6B外、还开源了基础模型ChatGLM3-6B-Base、长文本对话模型ChatGLM3-6B-32K。以上所有权重对学术研究完全开放，在填写问卷进行登记后亦允许免费商业使用。
GLM-4
- 地址:https://github.com/THUDM/ GLM-4
- 简介:GLM-4-9B是智谱AI推出的最新一代预训练模型GLM-4系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中， GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越Llama-3-8B的卓越性能。除了能进行多轮对话，GLM-4-9B-Chat还具备网页浏览、代码执行、自定义工具调用 (函数调用) 和长文本推理(支持最大128k上下文)等高级功能。本代模型增加了多语言支持、支持包括日语、韩语、德语在内的26日种语言。我们还推出了支持1米上下文长度(约200万中文字符)的 GLM-4-9B-Chat-1M 模型和基于GLM-4-9B的多模态模型GLM-4V-9B。GLM-4V-9B 具备1120*1120高分辨率下的中英双语多轮对话能力、在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中、GLM-4V-9B表现出超越GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、qwen-vl-max和Claude 3 Opus的卓越性能。
中国-羊驼:
- 地址:https://github.com/ymcui/ 中国-美洲驼-羊驼
- 简介:中文美洲驼和羊驼大语言模型 + 本地CPU/GPU部署，在原版美洲驼的基础上扩充了中文词表并使用了中文数据进行二次预训练
中国-美洲驼-羊驼-2:
- 地址:https://github.com/ymcui/ 中国-美洲驼-羊驼-2
- 简介:该项目将发布中文美洲驼-2和羊驼-2大语言模型，基于可商用的美洲驼-2进行二次开发。
Chinese-LlaMA2:
- 地址:GitHub - michael-wzhu/Chinese-LlaMA2: Repo for adapting Meta LlaMA2 in Chinese! META最新发布的LlaMA2的汉化版！（完全开源可商用）
- 简介:该项目基于可商用的美洲驼-2进行二次开发决定在次开展美洲驼2的中文汉化工作，包括Chinese-LlaMA2: 对美洲驼2进行中文预训练;第一步:先在42g中文预料上进行训练;后续将会加大训练规模;Chinese-LlaMA2-chat: 对中文-美洲驼2进行指令微调和多轮对话微调，以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案:Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据，对美洲驼-2进行直接微调 (将于近期开源)。
Llama2-Chinese:
- 地址:https://github.com/FlagAlpha/ Llama2-Chinese
- 简介:该项目专注于Llama2模型在中文方面的优化和上层建设，基于大规模中文数据，从预训练开始对Llama2模型进行中文能力的持续迭代升级。
Qwen/Qwen1.5
- 地址:GitHub - QwenLM/Qwen: The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
- 简介:通义千问是阿里云研发的通义千问大模型系列模型，包括参数规模为18亿(1.8b) 、70亿(7B)、140亿(14B)、720亿(72B)和1100亿(110B)。各个规模的模型包括基础模型Qwen，以及对话模型。数据集包括文本和代码等多种数据类型，覆盖通用领域和专业领域，能支持8k的上下文长度，针对插件调用相关的对齐数据做了特定优化，当前模型能有效调用插件以及升级为代理。
OpenChineseLLaMA:
- 地址:GitHub - OpenLMLab/OpenChineseLLaMA: Chinese large language model base generated through incremental pre-training on Chinese datasets
- 简介:基于LLaMA-7B经过中文数据集增量预训练产生的中文大语言模型基座，对比原版美洲驼，该模型在中文理解能力和生成能力方面均获得较大提升，在众多下游任务中均取得了突出的成绩。
贝儿:
- 地址:GitHub - LianjiaTech/BELLE: BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）
- 简介:开源了基于布卢姆和美洲驼优化后的一系列模型、同时包括训练数据、相关模型、训练代码、应用场景等、也会持续评估不同训练数据、训练算法等对模型表现的影响。
熊猫:
- 地址:GitHub - dandelionsllm/pandallm: Panda项目是于2023年5月启动的开源海外中文大语言模型项目，致力于大模型时代探索整个技术栈，旨在推动中文自然语言处理领域的创新和合作。
- 简介:开源了基于LLaMA-7B，-13B，-33B，-65B进行中文领域上的持续预训练的语言模型，使用了接近15m条数据进行二次预训练。
罗宾 (罗宾):
- 地址:GitHub - OptimalScale/LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models. Large Models for All.
- 简介:Robin (罗宾)是香港科技大学LMFlow团队开发的中英双语大语言模型。仅使用180k条数据微调得到的Robin第二代模型，在Huggingface榜单上达到了第一名的成绩。LMFlow支持用户快速训练个性化模型，仅需单张3090和5个小时即可微调70亿参数定制化模型。
风神邦-LM:
- 地址:https://github.com /创意-CCNL/风神邦-LM
- 简介: fengshenbang-lm (封神榜大模型)是思想研究院认知计算与自然语言研究中心主导的大模型开源体系，该项目开源了姜子牙通用大模型V1，是基于美洲驼的130亿参数的大规模预训练模型，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力。除姜子牙系列模型之外、该项目还开源了太乙、二郎神系列等模型。
比拉:
- 地址:GitHub - Neutralzz/BiLLa: BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability
- 简介:该项目开源了推理能力增强的中英双语美洲驼模型。模型的主要特性有:较大提升美洲驼的中文理解能力，并尽可能减少对原始美洲驼英文能力的损伤;训练过程增加较多的任务型数据，利用生成解析，强化模型理解任务求解逻辑;全量参数更新，追求更好的生成效果。
苔藓:
- 地址:GitHub - OpenMOSS/MOSS: An open-source tool-augmented conversational language model from Fudan University
- 简介:支持中英双语和多种插件的开源对话语言模型、苔藓基座语言模型在约七千亿中英文以及代码单词上预训练得到、后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
罗托-中文-法学硕士:
- 地址:https://github.com/LC1332/罗托-中文-LLM
- 简介:囊括了一系列中文大语言模型开源项目，包含了一系列基于已有开源模型(ChatGLM，莫斯，美洲驼) 进行二次微调的语言模型，指令微调数据集等。
林莉:
- 地址:GitHub - CVI-SZU/Linly: Chinese-LLaMA 1&2、Chinese-Falcon 基础模型；ChatFlow中文对话模型；中文OpenLLaMA模型；NLP预训练/指令微调数据集
- 简介:提供中文对话模型Linly-ChatFlow、中文基础模型Linly-Chinese-LLaMA及其训练数据。中文基础模型以LLaMA为底座，利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据，对中文模型进行了大规模指令跟随训练，实现了Linly-ChatFlow对话模型。
萤火虫:
- 地址:https://github.com /杨建新1/萤火虫
- 简介: 萤火虫 (流萤) 是一个开源的中文大语言模型项目、开源包括数据、微调代码、多个基于、百川等微调好的模型等;支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调;支持绝大部分主流的开源大模型、如百川、百川、子牙、水华、美洲驼等。持lora与基础模型进行权重合并，推理更便捷。
聊原
- 地址:https://github.com /线索-ai/聊原
- 简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型、在微调数据、人类反馈强化学习、思维链等方面进行了优化。
ChatRWKV:
- 地址:GitHub - BlinkDL/ChatRWKV: ChatRWKV is like ChatGPT but powered by RWKV (100% RNN) language model, and open source.
- 简介:开源了一系列基于RWKV架构的聊天模型(包括英文和中文)，发布了包括乌鸦，nove-chreng，nove-ch与nove-chrnpro等模型，可以直接闲聊及进行诗歌，小说等创作，包括7B和14B等规模的模型。
CPM-蜜蜂
- 地址:https://github.com/OpenBMB/ cpm-bee
- 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用变压器自回归架构 (自回归)，在超万亿 (万亿) 高质量语料上进行预训练，拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
TigerBot
- 地址:GitHub - TigerResearch/TigerBot: TigerBot: A multi-language multi-task LLM
- 简介:一个多语言多任务的大规模语言模型(LLM)，开源了包括模型:TigerBot-7B，TigerBot-7B-base，TigerBot-180B，基本训练和推理代码，100g预训练数据，涵盖金融，法律，百科的领域数据以及API等。
书生·浦语
- 地址:https://github.com/InternLM/ InternLM-techreport
- 简介:商汤科技、上海人工智能实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型 “书生·浦语”(InternLM)。据悉，“书生·浦语” 具有1040亿参数，基于 “包含1.6万亿令牌的多语种高质量数据集” 训练而成。
书生·浦语2
- 地址:GitHub - InternLM/InternLM: Official release of InternLM2.5 7B base and chat models. 1M context support
- 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型 “书生·浦语”(InternLM2)。internLM2在数理、代码、对话、创作等各方面能力都获得了长足进步、综合性能达到开源模型的领先水平。internLM2包含两种模型规格:7B和20B。7B为轻量级的研究和应用提供了一个轻便但性能不俗的模型，20B模型的综合性能更为强劲，可以有效支持更加复杂的实用场景。
天鹰座
- 地址:https://github.com/FlagAI-开放/FlagAI/树/主/示例/天鹰座
- 简介:由智源研究院发布，Aquila语言大模型在技术上继承了GPT-3，美洲驼等的架构设计优点，替换了一批更高效的底层算子实现，重新设计实现了中英双语的分词器，升级了BMTrain并行训练方法，是在中英文高质量语料基础上从0开始训练的，通过数据质量的控制，多种训练的优化方法，实现在更小的数据集，更短的训练时间，获得比其它开源模型更优的性能。也是首个支持中英双语知识，支持商用许可协议，符合国内数据合规需要的大规模开源语言模型。
Aquila2
- 地址: