书生大模型实战营基础岛第一关全链路开源开发体系笔记

最新推荐文章于 2024-08-08 18:36:45 发布

climax1

最新推荐文章于 2024-08-08 18:36:45 发布

阅读量122

点赞数

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/climax1/article/details/141022885

版权

书生浦语开源之路：

2023.7.6

InternLM-7B首先免费商用发布全链条开源工具体系

2023.9.20

InterLM-20B开源工具链全线升级

2024.1.17

InternLM2 开源性能超最新同量级开源模型

2024..7.4

InternLM2.5开源(Intern LM2.5-20B-Chat与GPT-4性能基本持平)

推理能力相对上一代LM2推理性能提升20%（原生推理性能）

支持100万字上下文理解和精确处理。

自主规划和搜索完成复杂任务。

数据驱动模型性能，通过数据过滤和智能评估的预训练数据输入模型得到预训练模型，然后再通过指令生成和辅助标注进行数据对齐和微调，循环往复得到更好的模型。

高质量合成数据部分：

基于规则的数据构造：

基于模型的数据扩充：

基于反馈的数据生成：

Label LLM 方便进行标注

大海捞针实验：

当给模型提供一段非常长的背景知识的时候，模型是否能够定位这段知识的任何位置的任何信息。

InternLM2可以实现这点

实验：直接将新唐书发给模型，查看定位效果，通常需要RAG，这对于普通的文档索引是没有问题的，但是如果上升到跨文档的搜索和理解推理，就会存在很大的问题。

基于规划和搜索解决复杂问题：

分析用户需求-问题分析-再进行思维路径拆解-找出为了找到内容而进行的操作-进行内容整合-然后做到回复。

1.8B超轻量级可用于端侧应用

7B为轻量级的研究和应用提供强力支撑

20B可以有效支持更加复杂的使用场景

102B性能强大的闭源模型，典型场景表现接近GPT-4

书生大模型全链条开源，与社区生态无缝衔接。

书生万卷

首个惊喜处理的开源多模态语料库

InterEvo

性能超过国际主流训练框架 DeepSpeed

Xtuner

微调

Mindsearch 搜索应用，Lagent智能体框架

MinerU 高效文档解析工具。

HuixiangDou 基于专业知识库的群聊助手

OpenCompass 这是社区最全面的开源评测体系

LMDeploy

性能超过国际主流推理框架 vllm

MinerUK可以直接从文档钟萃取数据

LabelLLM 多模态问答对标注

LLM对话标注非常好用

Label可以是实现视频标注，同时无缝兼容多种格式数据。

InternEvo

可以降低训练要求

微调XTuner

多种微调对齐算法，覆盖各类应用场景

支持多种开源生态

自动优化加速。

Q-Lora Lora微调。

OpenCompass大模型体系已经非常完善和成熟。

LMDeploy部署框架

Python 推理接口等支持众多，领先VLLM

大模型局限性：

信息和知识的获取不行

智能体Lagent（轻量级框架）

支持ReAct ReWoo AutoGPT等多种类型的智能体

灵活支持多种大预言模型

拓展工具众多

可以调用python解释器-把数学问题转成语义问题、

MindSearch智能体

茴香豆 RAG企业级知识库构建工具

书生太了不起了！！！

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
书生大模型实战营基础岛第一关全链路开源开发体系笔记

实验：直接将新唐书发给模型，查看定位效果，通常需要RAG，这对于普通的文档索引是没有问题的，但是如果上升到跨文档的搜索和理解推理，就会存在很大的问题。数据驱动模型性能，通过数据过滤和智能评估的预训练数据输入模型得到预训练模型，然后再通过指令生成和辅助标注进行数据对齐和微调，循环往复得到更好的模型。分析用户需求-问题分析-再进行思维路径拆解-找出为了找到内容而进行的操作-进行内容整合-然后做到回复。当给模型提供一段非常长的背景知识的时候，模型是否能够定位这段知识的任何位置的任何信息。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。