InternLM：基础岛

dilvx

已于 2024-09-03 19:06:02 修改

阅读量307

点赞数 7

文章标签： ai

于 2024-09-03 15:18:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dilvx/article/details/141833332

版权

第一关：书生大模型全链路开源体系

高质量合成数据

LLM 产品线 - 按模型大小

据说 20B 以上的有涌现，7B 及一下还是有一点基于训练数据的感觉

全流程产品线

全链条的环节包括：数据 - 预训练 - 微调 - 部署 - 评测 - 应用

ailab 开源了每个环节的库和框架

环节：数据

目前提供 30 余种数据集。主要数据类型有图像，视频，tokens 语料，3D 模型，音频。

对于数据提取和数据标注环节，ailab 提供了 Miner U 数据提取工具，提取 PDF 中的语料信息；也提供了 Label LLM/Label U 数据标注工具

环节：预训练

InternEvo 预训练框架支持分布式训练（跨 GPU），可以让更大的模型跨 GPU 跑起来。

环节：微调

XTuner 支持目前市面上的主流格式。该框架可以将市面上的格式转化成统一的内部格式，然后进行微调。Flash Attention 是自动开启的。主要支持 QLoRA 算法和 LoRA 算法。

环节：评测

OpenCompass 是评测框架，得到了 Meta 的认证，并参与了国标制定。

环节：部署

环节：智能体

模型在一些方面具有局限性，如持续学习最新的信息、提供可靠的回复、严谨数学计算、工具使用和交互。因此，可以把模型和工具结合

学术界主流的框架有三种，ReAct, ReWoo, AutoGPT

应用：构建企业级知识库

ailab 做了一个叫 huixiangdou 的工具。主要支持 RAG 检索增强生成和 KG 知识图谱两种模式

关注

7
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。