大模型介绍及部署,零基础入门到精通非常详细,收藏我这一篇就够了

1

什么是大模型

从1950年图灵提出“图灵测试”(主要用来评估机器是否能够表现出与人类相当的智能行为)以来,人类对人工智能的探索从未停止过,其间有高峰也有寒冬,最终发展成人工智能的三个学派。

1. 符号主义学派

符号主义强调逻辑推理和形式化的方法,通过逻辑规则和算法来解决问题,符号主义学派擅长解决那些可以被明确定义和形式化的问题,主要运用于最短路径规划、下棋、定理证明等。

符号主义主要有以下弊端:

  1. 符号主义依赖于明确的规则和逻辑推理,但在现实世界中,很多情况是模糊不清的,存在不确定性。

  2. 随着问题复杂度的增加,符号主义系统的规模也会变得非常庞大,这使得维护和更新系统变得困难。

  3. 符号主义系统通常是静态的,一旦设计完成就很难适应环境的变化。

  4. 符号主义方法可能涉及复杂的搜索过程,这会导致计算效率低下。

2. 行为主义学派

行为主义学派强调可观察的行为,而不是内部的状态或知识表示。智能行为是在与环境的交互中展现出来的,而不是通过内部的推理或知识处理。行为主义学派借鉴了控制论原理,强调感知-动作型控制系统的重要性,主要用于移动机器人、自动驾驶等领域。

行为主义主要有以下弊端:

  1. 难以处理复杂任务

  2. 对环境过度依赖

  3. 难以模拟人类行为

  4. 缺乏长期记忆和学习

3. 连接主义学派

连接主义学派的研究重点在于模仿人脑的运行机制,特别是神经网络的结构和功能。连接主义强调信息的分布式存储和处理,这意味着信息不是储存在单个位置,而是分布在神经网络的各个部分。连接主义方法强调通过学习和适应来改进性能,这与人脑通过经验学习的方式类似,主要应用于图像识别、语音识别、自然语言处理。

连接主义主要有如下弊端:

  1. 解释性差:连接主义方法,尤其是深层神经网络,通常被视为“黑盒”模型,这意味着它们的内部工作机理难以解。

  2. 数据需求量大:训练高性能的连接主义模型通常需要大量的标注数据。

  3. 计算资源要求高:深度学习模型的训练和推理通常需要大量的计算资源。

  4. 训练时间长:训练大型神经网络可能需要很长时间,特别是当数据集很大时,这种长时间的训练周期可能不适合实时或快速迭代的应用场景。

通过以上说明,我根据自己的理解给大模型定义如下:

大模型是属于人工智能连接主义学派下的自然语言分支处理的一类模型,最初受人脑的神经元和神经突触的启发,模拟人类学习的方式(人脑的神经元100亿左右,要模拟这种行为参数就会很大,也是称为大模型的一种原因),通过经验(样本)学习,进而产生智能行为。学习过程可以简单通过下图进行说明:

图 1 大模型学习过程示意图

当然实际的模型是很复杂的,也是有很多层的,运用很多知识:比如通过激活函数使各个层直接产生非线性性,通过反向传播算法优化参数,通过丢弃法消除过拟合等。

知道了大模型的由来、定义和大概原理,下面就根据目前网上公开的ChatGLM3-6B模型进行实操下。6B指的是模型参数的大小,又可以简单理解为人类的大脑的神经元数量级别。B代表billion意思,6B也就是60亿参数。一般模型的参数大点是好的,大点可以通过一些方法消除过拟合,如果模型复杂度达不到学习东西的复杂度就很难调整了。

2

大模型的安装部署

1. Chatglm3安装

ChatGLM3是智谱AI和清华大学KEG实验室联合发布的新一代对话预训练模型。ChatGLM3-6B是ChatGLM3系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:

  1. 更强大的基础模型: ChatGLM3-6B的基础模型 ChatGLM3-6B-Base采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base具有在10B 以下的基础模型中最强的性能。

  2. 更完整的功能支持: ChatGLM3-6B采用了全新设计的 Prompt格式,除正常的多轮对话外,同时原生支持工具调用、代码执行和 Agent 任务等复杂场景。

  3. 更全面的开源序列: 除了对话模型ChatGLM3-6B外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B.32K。

ChatGLM3-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,60 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

1.1安装环境

  1. NVIDIA GeForce RTX 3090 显卡(安装CUDA Version: 12.3)

  2. 硬盘1T

  3. Cpu16核

  4. 内存32g

  5. Ubuntu 22.04.3

1.2依赖下载

  1. 在https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下载Anaconda3-5.0.0-Linux-x86_64.sh

  2. 从魔塔社区下载chatglm3

https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/files 模型文件

  1. 从github 下载chatglm3程序

https://github.com/THUDM/ChatGLM3/

1.3安装步骤

  1. 执行./Miniconda3-latest-Linux-x86_64.sh 安装conda

  2. 安装完成后创建chatglm环境:

conda create -n chatglm3 python=3.11

  1. 进入chatglm3程序目录:

cd /home/secisland/sunzy/chatglm0604/ChatGLM3

  1. 切换到chatglm3 环境:

conda activate chatglm3

  1. 安装依赖:

pip install -r requirements.txt

  1. 到模型执行目录:

cd basic_demo/

  1. 修改模型参数位置:

vi cli_demo.py

将红圈部分调整为实际在魔塔社区下载的模型位置如下:

图 2 修改模型参数位置

执行python cli_demo.py 测试模型,模型运行成功如下:

图 3 执行测试模型

2. Llama3.1安装

Llama 3.1共发布8B、70B 和 405B 三个尺寸。能力全面提升,原生支持8种语言,最长上下文窗口128k。其中超大杯405B包含4050亿个参数,是首个“前沿级别开源AI模型”,也是近年来规模最大LLM之一。

在通用常识、可引导性、数学、工具使用和多语言翻译等广泛任务中足以对标GPT-4、Claude 3.5 Sonnet等领先闭源模型。

Llama 3.1 8B和70B也在老版本基础上进行了推理能力和安全性升级,除多语言和上下文扩展外,还支持更多诸如长文本总结、多语言对话代理和编程助手等高级用例。

主要亮点包括:

模型架构:延续Llama 3的标准解码器 transformer 架构,以最大化训练稳定性。

巨量数据:405B在15万亿token(相当于7500亿个单词)上训练,结合2500万合成数据微调。包含了更多的非英语资料、 “数学数据”和代码、以及最近的网络数据。

指令微调:后训练中每一轮都使用监督微调和直接偏好优化来迭代,并通过多轮对齐来改进模型的指令跟随能力和安全性,生成最终的聊天模型。

GPU规模:使用超过 1.6 万个 H100 GPU,时长高达惊人的3930万GPU小时。

预训练知识库:更新至2023年12月。

多语言支持:涵盖英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语

此外,所有Llama 3.1模型都可以使用第三方工具、应用程序和API来完成任务。支持零样本条件下的工具调用和操作,显著提升任务处理的灵活性和效率。

2.1安装环境

  1. NVIDIA GeForce RTX 3090 显卡(安装CUDA Version: 12.3)

  2. 硬盘1T

  3. Cpu16核

  4. 内存32g

  5. Ubuntu 22.04.3

2.2 依赖下载

  1. 在https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下载Anaconda3-5.0.0-Linux-x86_64.sh

  2. 从魔塔社区下载llama3.1模型文件:

https://hf-mirror.com/shenzhi-wang/Llama3.1-8B-Chinese-Chat(中文的模型文件)模型文件或者

  1. https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3.1-8B-Instruct/(原版开源的模型文件)

2.3 安装测试

  1. conda create -n llama3.1new python=3.12

  2. conda activate llama3.1new

  3. pip install requests

  4. pip install tqdm

  5. 手工编写如下测试代码llamachat.py (一般会通过openapi形式提供服务,所以测试代码比较简单):

图 4 python llamachat.py

图 5 执行结果

实际用openai 形式 利用chatglm3的openai 修改如下两个文件:

3

总结

本期介绍了什么是大模型以及目前主流大模型Chatglm3、Llama3.1的安装部署,下期将会介绍大模型微调及应用。敬请关注。


在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

  • 13
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值