大模型成为发展通用人工智能的重要途径
书生·浦语大模型开源历程
书生·浦语模型性能
从模型到应用
应用例子:智能客服/个人助手/行业应用
实现流程:
开源开放体系:
1.数据——书生·万卷
价值观对齐这个挺有意思嗷!
2.预训练工具
3.微调
大语言模型的下游应用中,增量续训和有监督微调是经常会用到的两种方式
(1)增量续训
使用场景:让基座模型学习到一些新知识,如某个垂类领域知识(垂类领域表示某个行业的某一部分,细分产业)
训练数据:文章、数据、代码等
(2)有监督微调
使用场景:让模型学会理解和遵循各种指令,或者注入少量领域知识
训练数据:高质量的对话、问答数据
4.评测
5.部署
6.应用
InternLM2 技术报告笔记
该报告提出的InternLM2 是一个开源的大型语言模型(LLM),旨在克服当前开源模型在性能和实用性方面的局限。 该模型在6个维度和30个基准测试中表现出色,并在长上下文建模和开放式主观评估方面取得了显著进展。InternLM2 的训练过程详细描述了各种数据类型(包括文本、代码和长上下文数据)的准备工作,展示了其在捕捉长期依赖性方面的有效性。InternLM2 通过监督微调(SFT)和创新的条件在线人类反馈强化学习(COOL RLHF)进行对齐,解决了人类偏好冲突和奖励操纵问题。
InternLM2 使用 InternEvo 框架进行训练,支持多种并行化策略和 GPU 内存优化技术,如 Zero 冗余优化器和 FlashAttention 技术,实现了高效的模型训练。InternEvo 框架展现了强大的并行能力和高效计算能力,但是可能对目前的学习阶段用处不是很大,但是权当背景知识储备了。
该报告所提出的数据收集处理方法,对于制作自己的领域数据集有很大的帮助。 报告指出文本数据主要来自网页、书籍、技术文献等,通过多阶段的规则过滤、安全过滤和质量过滤获得高质量的预训练数据。而对于长上下文数据通过长度选择、统计过滤和困惑度过滤等步骤进行处理,以确保高质量的长文本数据。其中值得注意的是,从网页中获取的数据的质量是明显低于书籍,论文,专利等来源的,对于垂域数据集的制作,可以考虑专业书籍,论文和专栏等更加可信的来源。
至于更多的技术细节,初次接触,受益颇多,对目前大模型训练中使用的一些技术有了初步的了解。 在对齐阶段,InternLM2 使用监督微调(SFT)和条件在线人类反馈强化学习(COOL RLHF)技术。SFT 使用了 1000 万条指令数据进行训练,而 COOL RLHF 引入了条件奖励模型,通过多轮在线 RLHF 进行调整,以避免奖励操纵行为。条件奖励模型通过不同的系统提示来融合多种人类偏好,提供更加一致和可靠的奖励信号。
InternLM2 通过创新的预训练和优化技术,在多个维度和基准测试中表现出色。通过开放不同训练阶段和模型大小的 InternLM2 模型,提供了社区分析模型演变的宝贵资源。