书生浦语开源之路:
2023.7.6
InternLM-7B首先免费商用发布全链条开源工具体系
2023.9.20
InterLM-20B开源工具链全线升级
2024.1.17
InternLM2 开源性能超最新同量级开源模型
2024..7.4
InternLM2.5开源(Intern LM2.5-20B-Chat与GPT-4性能基本持平)
推理能力相对上一代LM2推理性能提升20%(原生推理性能)
支持100万字上下文理解和精确处理。
自主规划和搜索完成复杂任务。
数据驱动模型性能,通过数据过滤和智能评估的预训练数据输入模型得到预训练模型,然后再通过指令生成和辅助标注进行数据对齐和微调,循环往复得到更好的模型。
高质量合成数据部分:
基于规则的数据构造:
基于模型的数据扩充:
基于反馈的数据生成:
Label LLM 方便进行标注
大海捞针实验:
当给模型提供一段非常长的背景知识的时候,模型是否能够定位这段知识的任何位置的任何信息。
InternLM2可以实现这点
实验:直接将新唐书发给模型,查看定位效果,通常需要RAG,这对于普通的文档索引是没有问题的,但是如果上升到跨文档的搜索和理解推理,就会存在很大的问题。
基于规划和搜索解决复杂问题:
分析用户需求-问题分析-再进行思维路径拆解-找出为了找到内容而进行的操作-进行内容整合-然后做到回复。
1.8B超轻量级可用于端侧应用
7B为轻量级的研究和应用提供强力支撑
20B可以有效支持更加复杂的使用场景
102B性能强大的闭源模型,典型场景表现接近GPT-4
书生大模型全链条开源,与社区生态无缝衔接。
书生万卷
首个惊喜处理的开源多模态语料库
InterEvo
性能超过国际主流训练框架 DeepSpeed
Xtuner
微调
Mindsearch 搜索应用,Lagent智能体框架
MinerU 高效文档解析工具。
HuixiangDou 基于专业知识库的群聊助手
OpenCompass 这是社区最全面的开源评测体系
LMDeploy
性能超过国际主流推理框架 vllm
MinerUK可以直接从文档钟萃取数据
LabelLLM 多模态问答对标注
LLM对话标注非常好用
Label可以是实现视频标注,同时无缝兼容多种格式数据。
InternEvo
可以降低训练要求
微调XTuner
多种微调对齐算法,覆盖各类应用场景
支持多种开源生态
自动优化加速。
Q-Lora Lora微调。
OpenCompass大模型体系已经非常完善和成熟。
LMDeploy部署框架
Python 推理接口等支持众多,领先VLLM
大模型局限性:
信息和知识的获取不行
智能体Lagent(轻量级框架)
支持ReAct ReWoo AutoGPT等多种类型的智能体
灵活支持多种大预言模型
拓展工具众多
可以调用python解释器-把数学问题转成语义问题、
MindSearch智能体
茴香豆 RAG企业级知识库构建工具
书生太了不起了!!!