大规模语言模型介绍

最新推荐文章于 2024-09-09 22:19:37 发布

辗转流连回个头

最新推荐文章于 2024-09-09 22:19:37 发布

阅读量901

点赞数 37

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_27910127/article/details/139878336

版权

**大规模语言模型（LLM）**是一种先进的深度学习应用，它在自然语言处理（NLP）领域扮演着重要角色。这些模型通过分析和学习大量的文本数据，能够掌握语言的复杂结构和语义，进而生成流畅、符合逻辑的文本内容。LLM的构建通常基于神经网络，并经过大量数据的训练，使它们具备处理各种NLP任务的能力，如文本生成、分类、摘要、翻译及语音识别等。

本文将详细介绍一系列由不同组织开源的LLM，它们在功能和应用上各具特色。

开源中文LLM

ChatGLM-6B：这是一款开源的双语对话模型，特别优化了中文处理能力。基于GLM架构，拥有62亿参数，支持在消费级显卡上进行本地部署。它通过大量中英双语数据训练，并采用监督微调等技术，虽然参数规模不及千亿级模型，但在效率和成本上具有明显优势。
ChatGLM2-6B：作为ChatGLM-6B的第二代，此模型在基座模型、上下文处理和推理效率上进行了全面升级。
VisualGLM-6B：一个多模态对话模型，支持图像及中英文处理，结合了BLIP2-Qformer的视觉技术，整体模型参数达到78亿。
MOSS：这是一个中英双语对话模型，具备160亿参数，支持在多种显卡上运行，并经过了广泛的预训练和微调，以支持多轮对话和插件使用。
DB-GPT：作为一个以数据库为核心的LLM，DB-GPT注重数据安全和隐私保护，提供了一套完整的私有大模型解决方案。
CPM-Bee：这是一个百亿参数的中英文双语模型，采用Transformer架构，并在万亿级语料上进行预训练。CPM-Bee的开源精神和商业可用性，使其在大模型领域具有重要地位。
LaWGPT：基于中文法律知识，LaWGPT通过扩充法律领域词表和大规模法律语料的预训练，提升了模型在法律领域的理解能力。
伶荔 (Linly) ：这是一个大规模中文语言模型，以其在强大硬件上的充分训练和公开的实验结果而著称，提供了不同量级的模型以适应不同需求。
Chinese-Vicuna：这是一个基于LLaMA的中文大语言模型，采用了低资源的LLaMA+Lora方案，包括多种开发和推理代码。
Chinese-LLaMA-Alpaca：结合了中文LLaMA模型和指令微调的Alpaca模型，进一步提升了中文语义理解能力。

持续探索的中文LLM领域

ChatYuan：作为一个功能型对话语言大模型，ChatYuan支持中英双语，并在微调数据、人类反馈强化学习等方面进行了优化。ChatYuan-large-v2特别注重轻量化实现，允许用户在消费级显卡甚至手机上进行推理。
华佗GPT (HuatuoGPT) ：这是一个开源的中文医疗大模型，结合了医生的回复和ChatGPT生成的数据，致力于提供专业且准确的医疗咨询。
本草 (BenTsao) ：原名华驼 (HuaTuo)，是一个基于中文医学知识的LLaMA微调模型，通过中文医学指令数据集增强了模型在医疗领域的问答效果。
鹏程·盘古α：作为业界首个以中文为核心的2000亿参数预训练生成语言模型，它支持NPU和GPU版本，并在多种文本生成领域展现出色的表现。
悟道：这是一个双语多模态预训练模型，拥有1.75万亿参数，涵盖了图文类和文本类两大类别。
CogView：在图文类中，CogView模型以40亿参数量实现了文本到图像的生成能力，在MS COCO文生图任务上取得领先成绩。
BriVL：作为首个中文通用图文多模态大规模预训练模型，BriVL在图文检索任务上展现了优异的效果。
GLM：以英文为核心的预训练语言模型系列，GLM基于新的预训练范式，在语言理解和生成任务上取得了最佳结果。
CPM：CPM系列模型兼顾了理解和生成能力，覆盖了中文、中英双语等多种模型。
Transformer-XL：这是一个以中文为核心的预训练语言生成模型，支持文章生成、智能作诗等NLG任务。
EVA：作为最大的汉语对话模型，EVA在多领域的悟道对话数据集上进行了预训练。
Lawformer：这是世界首创的法律领域长文本中文预训练模型，拥有1亿参数规模。
ProtTrans：作为国内最大的蛋白质预训练模型，ProtTrans的参数总量达到了30亿。
BBT-2：这是一个120亿参数的通用大语言模型，基于此模型训练出了代码、金融、文生图等专业模型。
BELLE：作为一个开源中文对话大模型，BELLE项目旨在促进中文对话大模型开源社区的发展。
TigerBot：作为一个多语言多任务的大规模语言模型，TigerBot-7B在公开NLP数据集上展现了与OpenAI同等规模模型相媲美的综合表现。
YuLan-Chat：由中国人民大学高瓴人工智能学院的研究团队开发，旨在探索和提升大语言模型的中英文双语对话能力。
百聆 (BayLing) ：这是一个具有增强语言对齐的英语/中文大语言模型，展现了优越的生成能力和多轮交互能力。

开源LLM的多样化生态

通义千问-7B (Qwen-7B) ：由阿里云研发，这是一个70亿参数规模的模型，基于Transformer架构，在多样化的超大规模预训练数据上训练，包括网络文本、专业书籍和代码等。
Code Llama：基于Llama 2的AI代码生成大模型，能够根据代码和自然语言提示生成多种主流编程语言的代码。
CodeFuse-13B：一个13亿参数的代码生成模型，基于GPT-NeoX框架，专门处理大规模代码序列。
MiLM-6B：小米开发的大规模预训练语言模型，拥有64亿参数，在多个评估标准上取得了优异成绩。
LLaMA：Meta推出的大型语言模型系列，包含不同规模的模型，从70亿到650亿参数不等。
Stanford Alpaca：斯坦福大学基于LLaMA 7B模型微调而成的指令调优模型。
Lit-LLaMA：基于nanoGPT实现的LLaMA模型，支持多种微调技术，致力于开源和集体知识共享。
GloVe：斯坦福大学开发的词向量工具，通过全局词频统计捕捉单词间的语义特性。
Dolly：低成本的大语言模型，基于EleutherAI的60亿参数模型，展现出与大型模型相似的互动能力。
OPT-175B：Meta开源的超大型语言模型，拥有1750亿参数，完全免费，但限于非商业用途。
Cerebras-GPT：Cerebras公司开源的自然语言处理大模型，包含从1.11亿到130亿参数的多个版本。
BLOOM：1760亿参数的大语言模型，支持46种自然语言和13种编程语言，易于获取并应用于多种任务。

LLM相关工具的创新应用

OpenLLM：一个开放平台，用于操作大语言模型，支持微调、模型服务、部署和监控。
LangChain：构建基于LLM的应用程序的库，提供了一系列工具和模块，帮助开发者结合LLM与其他计算或知识源。
JARVIS：连接LLM和AI模型的协作系统，通过任务规划、模型选择、执行和响应生成等阶段，实现复杂任务的解决。
Semantic Kernel：轻量级SDK，将AI大语言模型与传统编程语言集成，支持多种AI设计模式。
LMFlow：大语言模型的可扩展工具包，旨在建立开放的大模型研究平台，提升数据利用和算法效率。
xturing：为LLM提供个性化微调的工具，支持多种模型和微调技术，注重数据隐私和安全。
Dify：易用的LLMOps平台，提供可视化编排和多种应用服务，兼容Langchain并支持多种LLMs。
Flowise：开源UI可视化工具，使用LangchainJS构建自定义LLM流程。
Jigsaw Datase：微软推出的提高大型语言模型性能的工具，专注于代码合成和性能优化。
GPTCache：创建语义缓存以存储LLM查询响应的库，大幅降低成本并提高响应速度。
闻达：LLM调用平台，支持多种模型和知识库查找，注重多用户支持和对话管理。
MindFormers：大模型训练、推理、部署的全流程开发套件，提供丰富的并行特性和易用性接口。
Code as Policies (CaP) ：自然语言代码生成系统，允许通过语言模型直接编写机器人代码，提高任务执行的多样性和灵活性。
Colossal-AI：大规模模型并行训练系统，整合不同的并行化技术，简化分布式模型的编写和训练。
BentoML：统一模型部署框架，简化AI产品开发生命周期，支持所有流行的ML框架和开源LLM。
NSQL：开源SQL协同生成基础模型，专为SQL生成任务设计，包含多个规模的模型版本。

辗转流连回个头

关注

37
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
大规模语言模型介绍

*大规模语言模型（LLM）**是一种先进的深度学习应用，它在自然语言处理（NLP）领域扮演着重要角色。这些模型通过分析和学习大量的文本数据，能够掌握语言的复杂结构和语义，进而生成流畅、符合逻辑的文本内容。LLM的构建通常基于神经网络，并经过大量数据的训练，使它们具备处理各种NLP任务的能力，如文本生成、分类、摘要、翻译及语音识别等。本文将详细介绍一系列由不同组织开源的LLM，它们在功能和应用上各具特色。
复制链接

扫一扫