书生大模型实战营【书生大模型全链路开源体系】

书生浦语大模型开源开放体系的发展历程

2023年7月6日:InternLM-7B模型开源,并且是首个免费商用的模型。
2024年1月17日:InternLM-20B模型开源。
2024年7月4日:InternLM2.5模型开源。
2023年9月20日:InternLM2模型开源,并且发布了全链条开源工具体系。
2024年1月17日:InternLM2模型开源,并且开源工具链进行了全线升级,性能超过了最新的同量级开源模型。

在这里插入图片描述
通过不懈的努力,书生浦语开源大模型的能力已经追上了GPT4.0。

在这里插入图片描述

最新开源的书生·浦语2.5主要特点:
- 拥有推理能力,支持100万字的上下文理解。
- 能够自主规划和搜索,具有领先于社区开源模型的字上下文处理能力。
- 能够完成复杂任务,具有综合推理能力。
- 在处理百万字长文时,能够理解和精确处理信息,撰写专业回答。
- 通过信息搜索和整合,能够针对复杂问题提供专业回答,效率提升显著。

在这里插入图片描述

核心技术思路

模型能力飞轮
- 持续迭代:模型不断地进行更新和改进。
- 数据过滤:对预训练数据进行智能评估和筛选。
- 智能评估:使用模型来辅助数据的筛选和标注。
- 模型指令生成:模型能够生成指令,辅助数据的对齐和标注。
- 辅助标注:模型参与自身的迭代过程,帮助提高数据标注的质量和效率。
- 广泛使用模型:模型在多个方面被广泛使用,以加速其能力的提升。

在这里插入图片描述

合成数据类型

  • 基于规则的数据构造:使用固定的规则来生成数据。
  • 基于模型的数据扩充:利用已有的模型来扩展数据集。
  • 基于反馈的数据生成:根据用户或其他模型的反馈来生成数据。
    在这里插入图片描述

书生·浦语开源模型谱系

  • 1.8亿参数的超轻量级模型,适用于端侧应用或开发者快速学习上手。
  • 7亿参数的模型,轻便但性能不俗,为轻量级的研究和应用提供强力支撑。
  • 20亿参数的模型,综合性能强劲,可以支持更加复杂的实用场景。
  • 1020亿参数的闭源模型,性能强大,典型场景表现接近GPT-4。

在这里插入图片描述

全链条开源:与社区生态无缝连接,提供从数据到应用的全链条开源工具和资源。

  • 主要项目和工具:

    • MindSearch:思索式开源搜索应用。
    • Lagent:首个支持代码解释器的智能体框架。
    • MinerU:高效文档解析工具。
    • 书生·万卷:首个精细处理的开源多模态语料库:提供多模态数据处理。
    • HuixiangDou:基于专业知识库的群聊助手。
    • InternEvo:性能超过国际主流训练框架。
    • OpenCompass:社区最全面的开源评测体系。
    • DeepSpeed:系列模型和工具。
    • XTuner:多种微调和偏好对齐算法。
    • LMDeploy:支持多种微调和偏好对齐算法的部署工具。
  • 合作伙伴和工具:

    • Hugging Face:提供VLLM、LLaMAC等工具。
    • TensorRT-LLM:用于深度学习推理的优化工具。
    • LMStudio:用于模型微调和部署的平台。
    • LLaMA-Factory:用于生成和管理LLaMA模型的工厂。
    • andEGeLLMFint:可能是一种金融领域的LLM应用。
    • Llamalndex、ollama、MLX、llamafile、Swift:其他相关工具或框架。

在这里插入图片描述

  • 8
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值