llm学习笔记

失千

已于 2024-09-17 13:00:02 修改

阅读量403

点赞数 5

文章标签：人工智能开源

于 2024-09-17 12:59:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46220362/article/details/142313345

版权

@llm学习笔记

1.前言

这是一篇关于书生·浦语llm系列介绍。

本文将介绍书生·浦语大模型全链路开源开放体系的历程和最新版本的特点。从模型的开源开放体系、数据收集整理、模型训练、微调、评测、搜索引擎到AI应用的部署等方面进行介绍。其中，最新版本的书生·浦语大模型2.5在推理能力和短期记忆等方面有质的飞跃，同时开源了labelLLM项目方便标注数据。还有模型的性能天梯和应用前景。

2.书生浦语大模型开源开放体系的发展历程和最新版本的特点。

1.开源开放体系的建立：书生·浦语大模型自始便重视开源，通过发布开源项目吸引了众多开发者和研究者的参与。这种开放的形式加快了模型的迭代与优化。
书生浦语大模型全链路开源开放体系：
在这里插入图片描述
包含了从数据端到应用端的系列开源体系。
2.数据收集与整理：该模型在数据驱动的过程中，采用多种数据生成方式，包括基于规则、模型以及反馈的数据生成。这提高了数据的多样性，增强了模型的推理能力及短期记忆。

3.反馈机制的引入：引入相似度对齐与基于反馈的强化训练后，模型在理解用户需求方面的表现有所提升，进而提高了准确性和用户满意度。

4.InternLM2.5最新版本：性能提升：在最新版本的书生·浦语大模型2.5中，推理能力和短期记忆等方面得到了显著提升，从而在处理复杂问题时更快速且准确。

3.基于规则、模型和反馈的数据生成方法,以及如何使用开源项目进行标注和推理。

1.基于模型的反馈数据生成方法，包括相似度对齐和基于反馈的强化训练。
在这里插入图片描述

2.大海捞针实验:大海捞针实验验证模型的推理能力，模型在处理超长背景知识时的表现。在这里插入图片描述

3.引入问题匹配分块：问题匹配分块的方法可以用于语言模型的索引和问题理解。

4.Mindsearch项目

mindsearch项目：在这里插入图片描述
用人类的思考方式去解决问题

5.开源数据处理工具箱

包括提取工具Minor U和标注工具label llm和label u
在这里插入图片描述

6.XTuner微调工具

零显存浪费的偏好对齐训练方案
21:32使用EXTINA微调和OpenCompass评测模型23:25Im deploy模型部署框架和智能体框架
基于AI的搜索引擎和知识插件26:13

7. 评测工具OpenCompass

在这里插入图片描述

8.部署LMDeploy

7.知识管理工具茴香豆的企业级应用,以及开源生态体系的完善和实战营的开展。

26:31
27:22
28:38

支持检索增强生成和知识图谱，可解释的行为。
最后安利下llm学习推荐：

书生大模型实战营

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。