动手学大模型应用开发：大模型简介与环境配置

最新推荐文章于 2024-07-05 14:49:28 发布

大飞攻城狮

最新推荐文章于 2024-07-05 14:49:28 发布

阅读量944

点赞数 27

文章标签：人工智能 AI大模型 AI 语言模型机器学习

本文链接：https://blog.csdn.net/m0_63171455/article/details/139824075

版权

大模型简介

大语言模型（LLM，Large Language Model），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。

我将他理解为一种黑盒模型，他可以输入人类语言，输出人类语言，黑盒里面是什么呢？是一种大型神经网络。

以上是一个普通的神经网络，它有3个输入权重和一个输出，

y=w1x1+w2x2+w3x3+by=w_1x_1+w_2x_2+w_3x_3+by=w1x1+w2x2+w3x3+b

w1、w2、w3w_1、w_2、w_3w1、w2、w3是权重，x1、x2、x3x_1、x_2、x_3x1、x2、x3是输入，只有当yyy大于某个值的时候，才会输出【出去玩】这个结论，这是一个简单的神经网络的例子。对我们学生来说，可能“考完试了”这个占的权重是 0.8 ，我们更可能考完试就出去玩。

当然，这只是一个简单的神经网络，这里面的权重数字，例如刚刚说到的 0.8 ，是我们手动设置的，事实上，你可以统计你出去玩的所有因素，数据化，最后可以得到一个线性回归的方程，这里面的权重符合你自己的情况。

这是更大些的神经网络，插一嘴，要画他很简单

import networkx as nx
import matplotlib.pyplot as plt

# 创建一个空的有向图
G = nx.DiGraph()

# 添加节点
layers = [10, 10, 13, 12,8,13,5,7,8,10,6,1]
for i in range(len(layers)):
    for j in range(layers[i]):
        G.add_node((i, j))

# 添加边
for i in range(len(layers) - 1):
    for j in range(layers[i]):
        for k in range(layers[i + 1]):
            G.add_edge((i, j), (i + 1, k))

# 绘制图
pos = {}
for node in G.nodes:
    pos[node] = node
nx.draw(G, pos, with_labels=False, node_color='white',edgecolors='black')

# 显示图
plt.show()

但如此大型的神经网络的构建是很复杂的，而大模型，大型语言模型，里面构建了成千上万个更复杂的各种各样的神经元。科学家用人类所有的语言数据作为输入，训练得到一个权重，这个权重放在黑盒中，我们再输入一些问题，黑盒就会返回一些回答。

私以为，现在学术界、市场上的各种大模型，他们的差异只在两点：

神经元构建方式不同
训练数据不同

神经元构建的不同，但都旨在模拟人类大脑，好比不同画家临摹一幅画，画家各不同，但画出来的画，如果画家合格，那应该没有什么大差别。

而花画得画，画石得石。

大模型应用开发是这样的，科学家只要训练模型就行了，而我们开发者要思考的就多了。

科学家已经为黑盒模型提供了调用接口，我们只要像以往调用 api 一样开发即可。

LangChain

LangChain旨在帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程

人生苦短，我用 Python ，LangChain 库可以帮助我们快速开发大模型应用。

RAG

检索增强生成（RAG, Retrieval-Augmented Generation）

他的诞生是为了解决两点：

大模型输入窗口的token有限
大模型幻觉问题

以我在科大讯飞实习的经历来看，23年暑假我在数字员工部门实习，当时我们部门做 RPA +大模型，这是一个拿了中国信通院的大模型优秀应用案例的项目。

当时使用星火大模型做生成式 RPA，你没有办法一次性把关于 RPA 的所有知识喂给大模型，更别提一些小的、碎的、私有化内容。一种解决方法是用外挂向量数据库的方式，采用固定的prompt 模板，但每次只检索和问题相关的知识。

环境配置

环境配置较为简单，具体来说，你需要一台服务器，或者自己的电脑也行。我这里使用了阿里云的学生服务器，免费，我还有另外一台腾讯云的，但我在那里部署了我的博客。另外azure 的学生服务器也可以使用。现在云服务也很便宜。我第一次接触云服务器是高二寒假，那时疫情在家上网课，无意中接触到的。

你已经使用 vscode 连接上了远程服务器。可参考[VSCode 连接远程服务器]

配置 git

生成ssh key

ssh-keygen -t rsa -C "youremail@example.com"

将公钥添加到 github

cat ~/.ssh/id_rsa.pub

复制输出内容，复制输出内容，打开 github，点击右上角头像，选择 settings -> SSH and GPG keys -> New SSH key，将复制的内容粘贴到 key 中，点击 Add SSH key

配置 conda

安装

mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh

初始化

~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh

检查

conda --version

新建一个终端，此命令会输出conda版本

新建虚拟环境

conda create -n llm-universe python=3.10

激活虚拟环境

conda activate llm-universe

克隆仓库

git clone git@github.com:datawhalechina/llm-universe.git

配置仓库

cd llm-universe
pip install -r requirements.txt

下载 NLTK 相关资源

我们在使用开源词向量模型构建开源词向量的时候，需要用到第三方库 nltk 的一些资源。正常情况下，其会自动从互联网上下载，但可能由于网络原因会导致下载中断。当我们使用 nltk 时就会报错。此处我们从国内仓库镜像地址下载相关资源。

cd /root
git clone https://gitee.com/yzy0612/nltk_data.git  --branch gh-pages
cd nltk_data
mv packages/*  ./
cd tokenizers
apt install unzip -y
unzip punkt.zip
cd ../taggers
unzip averaged_perceptron_tagger.zip

9.配置 jupterlab 的内核服务器为刚刚创建的llm 当你打开一个 ipynb 文件，点击右上角选择内核，选择 Python 解释器，再选择 llm-universe 环境

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

大飞攻城狮

关注

27
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
动手学大模型应用开发：大模型简介与环境配置

大语言模型（LLM，Large Language Model），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。我将他理解为一种黑盒模型，他可以输入人类语言，输出人类语言，黑盒里面是什么呢？是一种大型神经网络。以上是一个普通的神经网络，它有3个输入权重和一个输出，w1、w2、w3w_1、w_2、w_3w1、w2、w3是权重，x1、x2、x3x_1、x_2、x_3x1、x2、x3是输入，只有当yyy大于某个值的时候，才会输出【出去玩】这个结论，这是一个简单的神经网络的例子。
复制链接

扫一扫