【AI大模型】羊驼大模型详解

最新推荐文章于 2024-05-28 21:29:07 发布

AI大模型-王哥

最新推荐文章于 2024-05-28 21:29:07 发布

阅读量1.5k

点赞数 40

文章标签：人工智能 AI大模型大模型 AI技术 AI

本文链接：https://blog.csdn.net/2401_84204413/article/details/139227794

版权

LLaMa系列模型

羊驼模型（鼻祖是LLaMa模型，Facebook公司开源模型）：即将成为大模型的安卓，国内95%的大模型都是羊驼套壳。
GPT系列（OpenAI公司）：相当于大模型的iOS（不开源）。

LLaMa模型结构：前面的词预测后面的词，经典的解码结构。位置编码用的是旋转自编码。

大语言模型为什么取名为LLaMa（美洲鸵）？
LLM发音困难。两个LL跟绕口令一样挑战舌头。大家想给它加点原音，帮助发音。有人加了A，就是LLaMa。

LLaMa是2023年Meta发布的基础LLM模型，该模型有四个版本，分别是7B、13B、33B、65B参数的模型。（LLaMa模型是从零开始训练的基础模型，国内大多数模型都是套壳LLaMa模型）

2.模型的优点：

开源。相比之前的大模型，LLaMa完全是在公共开源预训练数据上训练（通用性比较强，没有使用封闭的数据）
推理效率也是LLaMa的一个亮点，可以在单卡V100完成推理（降低了硬件使用门槛，让大模型平民化，训练模型的成本大大降低）。

3.模型的训练和数据：
65B的模型使用2048块A100 80G的GPU，训练21天左右。（训练成本还是比较高的，训练的数据集同GPT一样）

LLaMa模型训练的数据集

Alpaca模型

Alpaca是斯坦福从Meta的LLaMA 7B微调而来的全新模型（套壳是微调模型，LLaMA是全调的基础模型），仅用了52k数据，性能约等于GPT-3.5。
训练成本奇低，不到600美元。（大模型屌丝化）
在8个80GB A100 上训练了3个小时，不到100美元;
生成数据使用OpenAl的API，500美元。（正常是人工来标注数据，人工的成本很高；这里数据标注使用了OpenAl的接口，问题问ChatGPT3，用它的回答作为标注数据来进行微调，训练出Alpaca模型）

国内很多大模型都是学Alpaca模型的玩法，套壳LLaMA模型低成本训练出自己的模型。

Alpaca模型的训练流程

Alpaca模型使用了GPT3来标注数据

Vicuna模型

Vicuna模型简介

Vicuna模型训练流程

Vicuna模型使用了GPT4来做评估（效果更好）

GPT5短时间暂时不会有，因为GPT4已经突破了人类现在的硬件资源的一个极限。

羊驼系列模型对比

华驼大模型（国内的医疗大模型）

华驼大模型

百川大模型（搜狗王小川搞的大模型）

LLaMa + 中文数据

业内有句俗话：一开源就自主研发，不开源就卡脖子

LLaMa2的提升

模型的提升一般模型本身没有多大的进化，主要的提升是堆数据和堆算力，使模型进行进化。

LLaMa2.0的训练也使用了ChatGPT的训练那套方法：

第一步：首先对LLaMa模型通过问答对进行有监督的训练
第二步：训练一个排序模型（就是通过人来标注这个模型输出的数据，让这个模型输出的答案更加符合人类的认知；通过人来对这些输出的结果打分，来调整这个模型，让这个模型的输出结果更加符合人的认知）；这个强化模型，就相当于具备了人的情商，理解了人类的喜好。
第三步：用具备人类喜好的这个模型，再来去微调LLaMa，让这个LLaMa模型输出的结果更加符合人的认知（相当于具备了情商），这样就训练出LLaMa2.0。

微调的效果为什么会好？
原生的基础LLaMa用的语料是通用语料。在自己的数据上进行微调，让模型能够满足自己的需求。微调的本质并不是能把模型效果变好，微调的目的是让模型更适应于我们的数据。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈
大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）
在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AI大模型-王哥

关注

40
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
【AI大模型】羊驼大模型详解

LLaMa模型结构：前面的词预测后面的词，经典的解码结构。位置编码用的是旋转自编码。大语言模型为什么取名为LLaMa（美洲鸵）？LLM发音困难。两个LL跟绕口令一样挑战舌头。大家想给它加点原音，帮助发音。有人加了A，就是LLaMa。3.模型的训练和数据：65B的模型使用2048块A100 80G的GPU，训练21天左右。（训练成本还是比较高的，训练的数据集同GPT一样）LLaMa模型训练的数据集。
复制链接

扫一扫