书生大模型实战营基础岛第一关全链路开源开发体系笔记

书生浦语开源之路:

2023.7.6

InternLM-7B首先免费商用发布全链条开源工具体系

2023.9.20

InterLM-20B开源工具链全线升级

2024.1.17

InternLM2 开源性能超最新同量级开源模型

2024..7.4

InternLM2.5开源(Intern LM2.5-20B-Chat与GPT-4性能基本持平)

推理能力相对上一代LM2推理性能提升20%(原生推理性能)

支持100万字上下文理解和精确处理。

自主规划和搜索完成复杂任务。

数据驱动模型性能,通过数据过滤和智能评估的预训练数据输入模型得到预训练模型,然后再通过指令生成和辅助标注进行数据对齐和微调,循环往复得到更好的模型。

高质量合成数据部分:

基于规则的数据构造:

基于模型的数据扩充:

基于反馈的数据生成:

Label LLM 方便进行标注

大海捞针实验:

当给模型提供一段非常长的背景知识的时候,模型是否能够定位这段知识的任何位置的任何信息。

InternLM2可以实现这点

实验:直接将新唐书发给模型,查看定位效果,通常需要RAG,这对于普通的文档索引是没有问题的,但是如果上升到跨文档的搜索和理解推理,就会存在很大的问题。

基于规划和搜索解决复杂问题:

分析用户需求-问题分析-再进行思维路径拆解-找出为了找到内容而进行的操作-进行内容整合-然后做到回复。

1.8B超轻量级可用于端侧应用

7B为轻量级的研究和应用提供强力支撑

20B可以有效支持更加复杂的使用场景

102B性能强大的闭源模型,典型场景表现接近GPT-4

书生大模型全链条开源,与社区生态无缝衔接。

书生万卷

首个惊喜处理的开源多模态语料库

InterEvo

性能超过国际主流训练框架 DeepSpeed

Xtuner

微调

Mindsearch 搜索应用,Lagent智能体框架

MinerU 高效文档解析工具。

HuixiangDou 基于专业知识库的群聊助手

OpenCompass 这是社区最全面的开源评测体系

LMDeploy

性能超过国际主流推理框架 vllm

MinerUK可以直接从文档钟萃取数据

LabelLLM 多模态问答对标注

LLM对话标注非常好用

Label可以是实现视频标注,同时无缝兼容多种格式数据。

InternEvo

可以降低训练要求

微调XTuner

多种微调对齐算法,覆盖各类应用场景

支持多种开源生态

自动优化加速。

Q-Lora Lora微调。

OpenCompass大模型体系已经非常完善和成熟。

LMDeploy部署框架

Python 推理接口等支持众多,领先VLLM

大模型局限性:

信息和知识的获取不行

智能体Lagent(轻量级框架)

支持ReAct ReWoo AutoGPT等多种类型的智能体

灵活支持多种大预言模型

拓展工具众多

可以调用python解释器-把数学问题转成语义问题、

MindSearch智能体

茴香豆 RAG企业级知识库构建工具

书生太了不起了!!!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值