[书生·浦语大模型实战营]——第一节:书生·浦语大模型全链路开源体系and InternLM2 技术报告笔记

大模型成为发展通用人工智能的重要途径

在这里插入图片描述

书生·浦语大模型开源历程

在这里插入图片描述
在这里插入图片描述

书生·浦语模型性能

在这里插入图片描述

从模型到应用

应用例子:智能客服/个人助手/行业应用
实现流程:
在这里插入图片描述
开源开放体系:
在这里插入图片描述

1.数据——书生·万卷

在这里插入图片描述
价值观对齐这个挺有意思嗷!
在这里插入图片描述

2.预训练工具

在这里插入图片描述

3.微调

大语言模型的下游应用中,增量续训和有监督微调是经常会用到的两种方式
(1)增量续训
使用场景:让基座模型学习到一些新知识,如某个垂类领域知识(垂类领域表示某个行业的某一部分,细分产业)
训练数据:文章、数据、代码等
(2)有监督微调
使用场景:让模型学会理解和遵循各种指令,或者注入少量领域知识
训练数据:高质量的对话、问答数据
在这里插入图片描述

4.评测

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.部署

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.应用

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

InternLM2 技术报告笔记

该报告提出的InternLM2 是一个开源的大型语言模型(LLM),旨在克服当前开源模型在性能和实用性方面的局限。 该模型在6个维度和30个基准测试中表现出色,并在长上下文建模和开放式主观评估方面取得了显著进展。InternLM2 的训练过程详细描述了各种数据类型(包括文本、代码和长上下文数据)的准备工作,展示了其在捕捉长期依赖性方面的有效性。InternLM2 通过监督微调(SFT)和创新的条件在线人类反馈强化学习(COOL RLHF)进行对齐,解决了人类偏好冲突和奖励操纵问题。

InternLM2 使用 InternEvo 框架进行训练,支持多种并行化策略和 GPU 内存优化技术,如 Zero 冗余优化器和 FlashAttention 技术,实现了高效的模型训练。InternEvo 框架展现了强大的并行能力和高效计算能力,但是可能对目前的学习阶段用处不是很大,但是权当背景知识储备了。

该报告所提出的数据收集处理方法,对于制作自己的领域数据集有很大的帮助。 报告指出文本数据主要来自网页、书籍、技术文献等,通过多阶段的规则过滤、安全过滤和质量过滤获得高质量的预训练数据。而对于长上下文数据通过长度选择、统计过滤和困惑度过滤等步骤进行处理,以确保高质量的长文本数据。其中值得注意的是,从网页中获取的数据的质量是明显低于书籍,论文,专利等来源的,对于垂域数据集的制作,可以考虑专业书籍,论文和专栏等更加可信的来源。

至于更多的技术细节,初次接触,受益颇多,对目前大模型训练中使用的一些技术有了初步的了解。 在对齐阶段,InternLM2 使用监督微调(SFT)和条件在线人类反馈强化学习(COOL RLHF)技术。SFT 使用了 1000 万条指令数据进行训练,而 COOL RLHF 引入了条件奖励模型,通过多轮在线 RLHF 进行调整,以避免奖励操纵行为。条件奖励模型通过不同的系统提示来融合多种人类偏好,提供更加一致和可靠的奖励信号。

InternLM2 通过创新的预训练和优化技术,在多个维度和基准测试中表现出色。通过开放不同训练阶段和模型大小的 InternLM2 模型,提供了社区分析模型演变的宝贵资源。

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不是吧这都有重名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值