书生大模型笔记1

目录

历史:GPT-1 2018年6月发布,直到2023年3月gpt-4发布并应用于chatgpt活跃进入大部分人的视野。

概念区分:

InternLM大模型

从模型到应用:

上面的任务怎么做到有条理地进行呢?interlm开源了一条龙的全链条开源体系:

微调分类:

 opencompass评测架构:

大模型特点与部署技术挑战:

智能体与大模型局限性:

lagent智能体框架:


历史:GPT-1 2018年6月发布,直到2023年3月gpt-4发布并应用于chatgpt活跃进入大部分人的视野。

概念区分:

专用模型---语音识别、人脸识别、imagenet分类检测等下游任务场景应用

通用大模型---一个模型应对多种任务、多种模态,例如chatgpt作为nlp领域的大模型,能够以一个模型完成情绪识别、QA任务、命名实体识别等以文本作为输入输出的任务,GPT-4更是从文本模态拓展到了视觉模态,进一步增加了通用性。

InternLM大模型

InternLM大模型于2023年6月7日发布。InternLM设计分为三种参数级:

三种参数级数模型的优势

从模型到应用:

选型:针对目标任务选择参数级别的模型

应用场景判断:由lora之类的办法进行模型微调

环境交互---调用外部api,与已有数据库进行数据交互,要为模型设计智能体。

模型评测当然是看看是否能完成自己的目的了,能够达成目的则进行到下一步的部署。

上面的任务怎么做到有条理地进行呢?interlm开源了一条龙的全链条开源体系

对于大模型应用的全链条体系

书生万卷:提供数据:模态包括文本、图像、视频,内容包括科技、文学、教育等领域。

internlm-train:模型训练框架支持从8卡到千卡的训练,同时高度优化以提升了训练性能。

XTuner: 成体系的框架兼容多种微调算法,适配多样计算加速硬件,最低8G显存即可微调7B模型,训练引擎延续mmengine体系,同时支持hugging face体系。

微调分类:

增量续训:

目的:让基座模型学习到一些新知识,例如某个垂类领域知识

方法:增加文章、书籍、代码的数据

有监督微调:

目的:让模型理解与遵循指令,注入少量知识

方法:增加高质量的对话、问答数据

lora部分参数微调方法

opencompass:评测工具,更适合中国大模型宝宝的评测集。

当今时代的评测集

 opencompass评测架构:

作为曾经非常火热,如今也是经常被提起的模型道德问题,适合对应社会的评测同样是一项很重要的任务。 

大模型特点与部署技术挑战:

值得注意的几点摘录:

基于transformer结构下却采用自回归生成token带来所需要的key,value大量缓存,导致巨大内存开销;(好理解) 

动态shape请求(可能是由不同模态的数据输入导致的,对于多模态数据的embed我也不是很懂,正想通过本次学习了解)

lmdeploy部署框架:

重点:基于fast-transformer的turbomind推理引擎支持

智能体与大模型局限性:

局限性:新消息的获取,回复的可靠性,数学计算,外部api工具使用交互

lagent智能体框架:

支持大量外部api工具,成体系的智能体能力。

 agentlego智能体集成工具箱,区别于上面lagent的智能体创建框架。

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值