大规模语言模型介绍

**大规模语言模型(LLM)**是一种先进的深度学习应用,它在自然语言处理(NLP)领域扮演着重要角色。这些模型通过分析和学习大量的文本数据,能够掌握语言的复杂结构和语义,进而生成流畅、符合逻辑的文本内容。LLM的构建通常基于神经网络,并经过大量数据的训练,使它们具备处理各种NLP任务的能力,如文本生成、分类、摘要、翻译及语音识别等。

本文将详细介绍一系列由不同组织开源的LLM,它们在功能和应用上各具特色。

开源中文LLM

  1. ChatGLM-6B:这是一款开源的双语对话模型,特别优化了中文处理能力。基于GLM架构,拥有62亿参数,支持在消费级显卡上进行本地部署。它通过大量中英双语数据训练,并采用监督微调等技术,虽然参数规模不及千亿级模型,但在效率和成本上具有明显优势。
  2. ChatGLM2-6B:作为ChatGLM-6B的第二代,此模型在基座模型、上下文处理和推理效率上进行了全面升级。
  3. VisualGLM-6B:一个多模态对话模型,支持图像及中英文处理,结合了BLIP2-Qformer的视觉技术,整体模型参数达到78亿。
  4. MOSS:这是一个中英双语对话模型,具备160亿参数,支持在多种显卡上运行,并经过了广泛的预训练和微调,以支持多轮对话和插件使用。
  5. DB-GPT:作为一个以数据库为核心的LLM,DB-GPT注重数据安全和隐私保护,提供了一套完整的私有大模型解决方案。
  6. CPM-Bee:这是一个百亿参数的中英文双语模型,采用Transformer架构,并在万亿级语料上进行预训练。CPM-Bee的开源精神和商业可用性,使其在大模型领域具有重要地位。
  7. LaWGPT:基于中文法律知识,LaWGPT通过扩充法律领域词表和大规模法律语料的预训练,提升了模型在法律领域的理解能力。
  8. 伶荔 (Linly) :这是一个大规模中文语言模型,以其在强大硬件上的充分训练和公开的实验结果而著称,提供了不同量级的模型以适应不同需求。
  9. Chinese-Vicuna:这是一个基于LLaMA的中文大语言模型,采用了低资源的LLaMA+Lora方案,包括多种开发和推理代码。
  10. Chinese-LLaMA-Alpaca:结合了中文LLaMA模型和指令微调的Alpaca模型,进一步提升了中文语义理解能力。

持续探索的中文LLM领域

  1. ChatYuan:作为一个功能型对话语言大模型,ChatYuan支持中英双语,并在微调数据、人类反馈强化学习等方面进行了优化。ChatYuan-large-v2特别注重轻量化实现,允许用户在消费级显卡甚至手机上进行推理。
  2. 华佗GPT (HuatuoGPT) :这是一个开源的中文医疗大模型,结合了医生的回复和ChatGPT生成的数据,致力于提供专业且准确的医疗咨询。
  3. 本草 (BenTsao) :原名华驼 (HuaTuo),是一个基于中文医学知识的LLaMA微调模型,通过中文医学指令数据集增强了模型在医疗领域的问答效果。
  4. 鹏程·盘古α:作为业界首个以中文为核心的2000亿参数预训练生成语言模型,它支持NPU和GPU版本,并在多种文本生成领域展现出色的表现。
  5. 悟道:这是一个双语多模态预训练模型,拥有1.75万亿参数,涵盖了图文类和文本类两大类别。
  6. CogView:在图文类中,CogView模型以40亿参数量实现了文本到图像的生成能力,在MS COCO文生图任务上取得领先成绩。
  7. BriVL:作为首个中文通用图文多模态大规模预训练模型,BriVL在图文检索任务上展现了优异的效果。
  8. GLM:以英文为核心的预训练语言模型系列,GLM基于新的预训练范式,在语言理解和生成任务上取得了最佳结果。
  9. CPM:CPM系列模型兼顾了理解和生成能力,覆盖了中文、中英双语等多种模型。
  10. Transformer-XL:这是一个以中文为核心的预训练语言生成模型,支持文章生成、智能作诗等NLG任务。
  11. EVA:作为最大的汉语对话模型,EVA在多领域的悟道对话数据集上进行了预训练。
  12. Lawformer:这是世界首创的法律领域长文本中文预训练模型,拥有1亿参数规模。
  13. ProtTrans:作为国内最大的蛋白质预训练模型,ProtTrans的参数总量达到了30亿。
  14. BBT-2:这是一个120亿参数的通用大语言模型,基于此模型训练出了代码、金融、文生图等专业模型。
  15. BELLE:作为一个开源中文对话大模型,BELLE项目旨在促进中文对话大模型开源社区的发展。
  16. TigerBot:作为一个多语言多任务的大规模语言模型,TigerBot-7B在公开NLP数据集上展现了与OpenAI同等规模模型相媲美的综合表现。
  17. YuLan-Chat:由中国人民大学高瓴人工智能学院的研究团队开发,旨在探索和提升大语言模型的中英文双语对话能力。
  18. 百聆 (BayLing) :这是一个具有增强语言对齐的英语/中文大语言模型,展现了优越的生成能力和多轮交互能力。

开源LLM的多样化生态

  1. 通义千问-7B (Qwen-7B) :由阿里云研发,这是一个70亿参数规模的模型,基于Transformer架构,在多样化的超大规模预训练数据上训练,包括网络文本、专业书籍和代码等。
  2. Code Llama:基于Llama 2的AI代码生成大模型,能够根据代码和自然语言提示生成多种主流编程语言的代码。
  3. CodeFuse-13B:一个13亿参数的代码生成模型,基于GPT-NeoX框架,专门处理大规模代码序列。
  4. MiLM-6B:小米开发的大规模预训练语言模型,拥有64亿参数,在多个评估标准上取得了优异成绩。
  5. LLaMA:Meta推出的大型语言模型系列,包含不同规模的模型,从70亿到650亿参数不等。
  6. Stanford Alpaca:斯坦福大学基于LLaMA 7B模型微调而成的指令调优模型。
  7. Lit-LLaMA:基于nanoGPT实现的LLaMA模型,支持多种微调技术,致力于开源和集体知识共享。
  8. GloVe:斯坦福大学开发的词向量工具,通过全局词频统计捕捉单词间的语义特性。
  9. Dolly:低成本的大语言模型,基于EleutherAI的60亿参数模型,展现出与大型模型相似的互动能力。
  10. OPT-175B:Meta开源的超大型语言模型,拥有1750亿参数,完全免费,但限于非商业用途。
  11. Cerebras-GPT:Cerebras公司开源的自然语言处理大模型,包含从1.11亿到130亿参数的多个版本。
  12. BLOOM:1760亿参数的大语言模型,支持46种自然语言和13种编程语言,易于获取并应用于多种任务。

LLM相关工具的创新应用

  1. OpenLLM:一个开放平台,用于操作大语言模型,支持微调、模型服务、部署和监控。
  2. LangChain:构建基于LLM的应用程序的库,提供了一系列工具和模块,帮助开发者结合LLM与其他计算或知识源。
  3. JARVIS:连接LLM和AI模型的协作系统,通过任务规划、模型选择、执行和响应生成等阶段,实现复杂任务的解决。
  4. Semantic Kernel:轻量级SDK,将AI大语言模型与传统编程语言集成,支持多种AI设计模式。
  5. LMFlow:大语言模型的可扩展工具包,旨在建立开放的大模型研究平台,提升数据利用和算法效率。
  6. xturing:为LLM提供个性化微调的工具,支持多种模型和微调技术,注重数据隐私和安全。
  7. Dify:易用的LLMOps平台,提供可视化编排和多种应用服务,兼容Langchain并支持多种LLMs。
  8. Flowise:开源UI可视化工具,使用LangchainJS构建自定义LLM流程。
  9. Jigsaw Datase:微软推出的提高大型语言模型性能的工具,专注于代码合成和性能优化。
  10. GPTCache:创建语义缓存以存储LLM查询响应的库,大幅降低成本并提高响应速度。
  11. 闻达:LLM调用平台,支持多种模型和知识库查找,注重多用户支持和对话管理。
  12. MindFormers:大模型训练、推理、部署的全流程开发套件,提供丰富的并行特性和易用性接口。
  13. Code as Policies (CaP) :自然语言代码生成系统,允许通过语言模型直接编写机器人代码,提高任务执行的多样性和灵活性。
  14. Colossal-AI:大规模模型并行训练系统,整合不同的并行化技术,简化分布式模型的编写和训练。
  15. BentoML:统一模型部署框架,简化AI产品开发生命周期,支持所有流行的ML框架和开源LLM。
  16. NSQL:开源SQL协同生成基础模型,专为SQL生成任务设计,包含多个规模的模型版本。
  • 37
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值