动手学LLM大模型：大模型简介与环境配置

本文链接：https://blog.csdn.net/AAI666666/article/details/143765336

大模型简介

大语言模型（LLM，Large Language Model），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。

我将他理解为一种黑盒模型，他可以输入人类语言，输出人类语言，黑盒里面是什么呢？是一种大型神经网络。

以上是一个普通的神经网络，它有3个输入权重和一个输出，

y=w1x1+w2x2+w3x3+by=w_1x_1+w_2x_2+w_3x_3+by=w1x1+w2x2+w3x3+b

w1、w2、w3w_1、w_2、w_3w1、w2、w3是权重，x1、x2、x3x_1、x_2、x_3x1、x2、x3是输入，只有当yyy大于某个值的时候，才会输出【出去玩】这个结论，这是一个简单的神经网络的例子。对我们学生来说，可能“考完试了”这个占的权重是 0.8 ，我们更可能考完试就出去玩。

当然，这只是一个简单的神经网络，这里面的权重数字，例如刚刚说到的 0.8 ，是我们手动设置的，事实上，你可以统计你出去玩的所有因素，数据化，最后可以得到一个线性回归的方程，这里面的权重符合你自己的情况。

这是更大些的神经网络，插一嘴，要画他很简单

python

import networkx as nx
import matplotlib.pyplot as plt

# 创建一个空的有向图
G = nx.DiGraph()

# 添加节点
layers = [10, 10, 13, 12,8,13,5,7,8,10,6,1]
for i in range(len(layers)):
    for j in range(layers[i]):
        G.add_node((i, j))

# 添加边
for i in range(len(layers) - 1):
    for j in range(layers[i]):
        for k in range(layers[i + 1]):
            G.add_edge((i, j), (i + 1, k))

# 绘制图
pos = {}
for node in G.nodes:
    pos[node] = node
nx.draw(G, pos, with_labels=False, node_color='white',edgecolors='black')

# 显示图
plt.show()

但如此大型的神经网络的构建是很复杂的，而大模型，大型语言模型，里面构建了成千上万个更复杂的各种各样的神经元。科学家用人类所有的语言数据作为输入，训练得到一个权重，这个权重放在黑盒中，我们再输入一些问题，黑盒就会返回一些回答。

私以为，现在学术界、市场上的各种大模型，他们的差异只在两点：

神经元构建方式不同
训练数据不同

神经元构建的不同，但都旨在模拟人类大脑，好比不同画家临摹一幅画，画家各不同，但画出来的画，如果画家合格，那应该没有什么大差别。

而花画得画，画石得石。

大模型应用开发是这样的，科学家只要训练模型就行了，而我们开发者要思考的就多了。

科学家已经为黑盒模型提供了调用接口，我们只要像以往调用 api 一样开发即可。

LangChain

LangChain旨在帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程

人生苦短，我用 Python ，LangChain 库可以帮助我们快速开发大模型应用。

RAG

检索增强生成（RAG, Retrieval-Augmented Generation）

他的诞生是为了解决两点：

大模型输入窗口的token有限
大模型幻觉问题

以我在科大讯飞实习的经历来看，23年暑假我在数字员工部门实习，当时我们部门做 RPA +大模型，这是一个拿了中国信通院的大模型优秀应用案例的项目。

当时使用星火大模型做生成式 RPA，你没有办法一次性把关于 RPA 的所有知识喂给大模型，更别提一些小的、碎的、私有化内容。一种解决方法是用外挂向量数据库的方式，采用固定的prompt 模板，但每次只检索和问题相关的知识。

环境配置

环境配置较为简单，具体来说，你需要一台服务器，或者自己的电脑也行。我这里使用了阿里云的学生服务器，免费，我还有另外一台腾讯云的，但我在那里部署了我的博客。另外azure 的学生服务器也可以使用。现在云服务也很便宜。我第一次接触云服务器是高二寒假，那时疫情在家上网课，无意中接触到的。

你已经使用 vscode 连接上了远程服务器。可参考VSCode 连接远程服务器

配置 git

生成ssh key

bash

ssh-keygen -t rsa -C "youremail@example.com"

将公钥添加到 github

bash

cat ~/.ssh/id_rsa.pub

复制输出内容，复制输出内容，打开 github，点击右上角头像，选择 settings -> SSH and GPG keys -> New SSH key，将复制的内容粘贴到 key 中，点击 Add SSH key

配置 conda

安装

bash

mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh

初始化

bash

~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh

检查

bash

conda --version

新建一个终端，此命令会输出conda版本

新建虚拟环境

bash

conda create -n llm-universe python=3.10

激活虚拟环境

bash

conda activate llm-universe

克隆仓库

bash

git clone git@github.com:datawhalechina/llm-universe.git

配置仓库

bash

cd llm-universe
pip install -r requirements.txt

下载 NLTK 相关资源

我们在使用开源词向量模型构建开源词向量的时候，需要用到第三方库 nltk 的一些资源。正常情况下，其会自动从互联网上下载，但可能由于网络原因会导致下载中断。当我们使用 nltk 时就会报错。此处我们从国内仓库镜像地址下载相关资源。

bash

cd /root
git clone https://gitee.com/yzy0612/nltk_data.git  --branch gh-pages
cd nltk_data
mv packages/*  ./
cd tokenizers
apt install unzip -y
unzip punkt.zip
cd ../taggers
unzip averaged_perceptron_tagger.zip

9.配置 jupterlab 的内核服务器为刚刚创建的llm 当你打开一个 ipynb 文件，点击右上角选择内核，选择 Python 解释器，再选择 llm-universe 环境

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望