书生浦语大模型全链路开源开放体系学习

书生浦语大模型的开源体系经过一年努力,已实现从数据收集到模型部署的全链路打通。课程介绍了书生浦语的最新进展,包括7B和20B模型的开源及其性能提升。新版本模型在推理能力和上下文处理上表现优异,支持超长上下文和复杂任务解决。开源工具涵盖数据处理、模型微调、评测和部署,助力用户在科研和应用领域的创新。课程还强调了社区的协作与反馈机制,推动了模型的不断优化与迭代。

在这里插入图片描述
从性能天梯来看,比肩GPT4

亮点:

书生浦语大模型的开源体系经历了长时间的努力,已实现从数据收集到AI应用的全链路打通。新版本的模型在推理性能和商业应用方面都有显著提升,展现出国产模型的强大潜力。
-书生浦语大模型自去年以来发布了多个版本,逐步实现从7B到20B的规模升级。每个新版本的模型都在性能上取得了显著的飞跃,满足不同用户的需求。
-书生浦语开源体系不仅仅涵盖模型本身,还包括工具和应用的全链条支持。这种全方位的生态促进了模型的商业化应用和科研机构的广泛使用。
-在与国际先进模型的对比中,书生浦语大模型的性能逐渐接近,例如在2.5版本中达到了与GPT 4.0的齐平。这样的进展标志着国产开源模型的竞争力不断增强。

短期记忆和上下文的处理能力在GPT4O模型中达到了100万的级别,展现出其强大的推理和复杂任务处理能力。通过不断的反馈和数据优化,模型性能得以提升,推动了开源体系的进步。
-GPT4O模型的上下文处理能力相较于之前的版本有显著提高,达到了10倍的量级。这种能力使得模型能够更好地理解和生成基于上下文的对话,满足用户的需求。
-在模型的迭代过程中,数据质量是提升模型性能的关键。通过智能评估和对齐数据,开发者能够不断优化模型的输出质量,从而提高用户的满意度。
-基于人类反馈的数据生成方法能够有效提升模型的生成能力。此方法允许用户对模型输出进行满意度排序,从而帮助模型更好地满足实际需求,改进后续版本。
概览从3个方向进行突破
核心技术思路还在通过RLHF不断迭代
从高质量的数据来源使模型完成各种超越人类期望的任务
推理能力不断提升
**模型在处理超长背景知识时的定位能力是一个重要话题。**尽管随着信息量的增加,模型的准确性会有所下降,但其在较短背景下的表现依然令人印象深刻。
-大海捞针实验显示了模型在大量信息中定位的挑战。随着背景知识长度的增加,模型的记忆和定位能力逐渐降低,这是理解其工作原理的关键。
-在处理复杂问题时,模型的规划和搜索能力至关重要。通过分析问题并利用外部工具,模型能够有效地解决子问题并整合答案,从而提升其整体性能。
-Mind Search项目展示了如何结合搜索引擎与语言模型。该项目的开源特点使得用户在进行调研和搜索工作时,能够获得更好的体验和便利。
大海捞针,100w tocken仍然表现很好
原生模型不用RAG也可以在长的上下文中发现逻辑,分析问题
处理问题可用到MindSearch
mindsearch可以对问题进行拆分并解答
**模型的参数量与应用场景有密切关系。**1.8B和7B参数的模型适合边缘设备和轻量级研究,而20B参数模型则展现出更复杂的涌现现象,适用于生产环境。
-不同参数量的模型在应用上有所不同。1.8B和7B参数的模型可以在手机和边缘设备上运行,而20B的模型在处理复杂任务时表现更佳,能够进行未见内容的回答。
-开源生态系统支持科研与应用。视频提到的书生万卷和in turn evil框架为科研和企业用户提供了丰富的资源和工具,方便进行预训练与微调。
-部署与评测工具的必要性。lm deploy和open compass等工具被介绍,帮助用户更高效地将微调后的模型部署到实际应用中,提升用户体验。

不同的模型大小和不同专业领域应用
所有的数据、部署、评测工具都是开源的
开源工具箱:Miner U、Label LLM、 Label U多模态问答的标注
介绍了一种高效的数据提取和处理工具minor u,它能够将复杂的PDF文件转化为纯文本格式,并集成了OCR功能。这些工具的开源性和与现有社区的无缝衔接,极大提高了数据处理的效率。
-minor u工具的功能非常强大,可以直接从PDF、网页和电子书中提取文本内容,解决了PDF复杂结构的问题。这个工具特别适合需要处理大量文档的用户,提高了工作效率。
-视频标注任务的开源软件相对较少,minor u和label LLM可以为用户提供良好的标注体验。用户可以利用AI辅助标注,显著提高标注效率,适用于图像和视频数据。
-与其他预训练框架相比,intern-evil在显存优化和分布式训练方面具有显著优势,降低了硬件要求,帮助企业节省成本并提高效率。这使得更多用户能参与到深度学习的应用中。
Intern Evo降低硬件要求,原来跑不起来的东西现在可以跑起来

优化加速技术在大模型微调中的应用,特别是flash attention和deep speed zero等技术的内置支持。这些技术显著提高了微调效率,并适用于不同的硬件环境,尤其是个人电脑。
Xtuner 都打包好了
Xtuner零显存浪费
在这里插入图片描述

   -当前在科研和企业中,qLora和LoRA算法的微调方法被广泛使用。这两种算法的微调方式简单易行,适合不同的计算环境,因此成为主流选择。 
   -Open Compass评测体系在大模型评测中扮演重要角色,广泛应用于各大企业及科研机构。它不仅获得了meta官方推荐,还提供了高质量的评测集和能力分析,助力行业发展。 
   -部署阶段使用的lm deploy框架支持多种开源模型的高效部署。该框架提供多种推理接口,并包括量化和服务选项,确保在性能和灵活性上的优势。 

Oencompass在评测标准上有突出贡献
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大模型的可靠性仍有待提高,因此需要构建智能体框架以增强与外部工具的互动。这种智能体框架将显著提升我们输出的可靠性,推动更精准的计算和结果展示。
-legend框架支持多种主流智能体构建方案,包括react、rework和auto gpt等。这些框架使得开发者可以灵活选择适合的工具来实现复杂的任务。
-通过demo展示,智能体能够调用Python解释器有效解决数学问题。这一过程体现了将数学问题转化为程序代码的能力,提高了问题解决的准确性。
-mind search智能体作为AI驱动的搜索引擎,能够模拟人脑思维逻辑,并可视化思维路径。它的设计能够有效规划和总结问题解决的步骤,提升了信息检索的效率。
在这里插入图片描述
在这里插入图片描述
把数学问题转化为语言问题;零样本泛化,大模型可以调用图片描述工具或者是规划其他思路
可视化大模型解决问题的路径,并进行思维连的总结
茴香豆是免费商用的RAG应用,
茴香豆的应用非常方便
参考:https://www.bilibili.com/video/BV18142187g5/?spm_id_from=333.788&vd_source=d5e90f8fa067b4804697b319c7cc88e4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值