零基础实现大模型部署(window平台)

这是一个超详细安装教程,介绍了在 Window 电脑上如何部署 Qwen1.5 大模型。本文还涉及到 Python 及其环境的配置。

适合对象:有点后端编程基础,没有 Python 基础。

需要环境:Window10/11,支持 Cuda 的 Nvidia 显卡。

GPU升级到合适的驱动

  1. 先到Nvidia官网下载合适的驱动,例如我家里的电脑是GTX1060版本,选择如下:

驱动1.png

  1. 点击搜索后会给出一些驱动选择,我选择了一个 537 的版本,配合我后续会提到的 cuda 12.2。

驱动2.png

安装 Anaconda

搞机器学习的,Anaconda一般绕不开。

Anaconda 是一个用于科学计算的 Python 发行版,支持 Linux, Mac, Windows, 包含了众多流行的科学计算、数据分析的 Python 包。Conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换。

因为我之前是学前端的,我给前端同学类比一下,每个环境就像 npm + package.json 组成的一个项目,还有可以指定该环境的 python 版本。这点在nodejs上只能通过 nvm 切换。

删除原有 Python

既然每个环境可以指定相应的 python 版本了,那我们就不用安装全局的 Python,先删除一下。

  1. 通过 控制面板 -> 卸载,找到 Python 卸载。
  2. 通过左下角搜索框搜 “环境变量” -> 编辑系统环境变量 -> 右下角 环境变量 -> 系统变量 -> Path

删除python1.png

删除python2.png

找到原来的 Python 安装的地址的两条记录,删掉。在退出时,记得点确定。

删除python3.png

下载Anaconda3

首先来到Anaconda官网下载,算了,不推荐,下载起来有点麻烦。

我们来到清华的镜像站,点击安装包下载链接。这里有个注意点,记得点一下按时间倒排,才能看到最新的版本,选择符合我们的 Window 64位版本下载。

image.png

安装Anaconda3

安装过程有很多点击下一步,在这里省略。在这里针对C盘比较小的情况,选择安装盘的时候,需要选择 All Users 和改到其它盘。

安装anaconda0.png

安装anaconda1.png

配置环境变量

我们继续回到刚才删掉 Python 环境变量的 Path 上,把Anaconda3的安装地址加进去。

安装anaconda2.png

检查安装成功与否

配置完环境变量,重启一下电脑。这是环境变量生效最不烧脑的做法。

按 Win + R,输入 cmd 确定进入命令行提示框,输入:

sh
复制代码
conda --version

安装anaconda3.png

此时能看到 conda 的版本号。

接入我们输入 python 进入python交互环境:

安装anaconda4.png

同样的,我们也能看到 Python 的版本号。

在这里我们可以通过 Ctrl+Z 再加 Enter 或者输入 exit() 来退出环境。

更换conda源

官方的源在国外,下载缓慢且不稳定。我们这里更换成国内的镜像。

  1. 首先通过系统左下角搜索“Anaconda”,选择“Anaconda Powershell Prompt”点击进去。

进入1.png

执行以下命令生成 .condarc 文件:

sh
复制代码
conda config --set show_channel_urls yes
  1. 后在用户目录下找到 .condarc 文件打开:

image.png

修改为以下内容:

yaml
复制代码
channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  deepmodeling: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/
  1. 运行 conda clean -i 清除索引缓存,保证用的是镜像站提供的索引。

注1:清华 Anaconda 镜像使用帮助,点击过去把地址收藏一下,后续有更新以他为准。

注2:后续如果想切换回官方源,.condarc 文件里面的内容清掉即可。

创建虚拟环境

  1. 通过以下命令来创建虚拟环境:
sh
复制代码
> conda create --name <name> python=<version>

虚拟环境1.png

在这里我们创建的虚拟环境名称为 llm,选择 Python 的版本选择为 3.11.5。

  1. 查看环境是否创建成功

通过命令:

sh
复制代码
conda info --envs

虚拟环境2.png

可以看到,我们创建的 llm 已经在里面了。

  1. 接下来我们切换到创建的环境中
sh
复制代码
conda activate <name>

虚拟环境3.png

部署大模型

下载大模型

以我们要部署的 Qwen1.5-0.5B-Chat 为例,通过 Modelscope社区 ,提供的下载方式,我们选择Git方式下载。

sh
复制代码
git clone https://www.modelscope.cn/qwen/Qwen1.5-0.5B-Chat.git

我把大模型下载到 D:\大模型\Qwen1.5-0.5B-Chat 目录下。

安装依赖

在这之前,我们先查一下我们的cuda版本。前面已经装好了相应的NVIDIA驱动,我们通过桌面右键,选择“NVIDIA控制面板”->左下角“系统信息”->切换为“组件”Tab:

cuda2.png

cuda3.png

可以看到我的cuda版本为12.2。

安装PyTorch

通过 PyTorch官网 找到相应的安装脚本。

这里选择 PyTorch 2.1.0 版本,之所以不选择更加新的版本,是因为会遇到其它问题。而cuda则选择12.1版本的,跟我电脑的12.2比较接近。

sh
复制代码
conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia
安装transformers

这里提供一下 Qwen官方文档,我们需要安装transformers库:

sh
复制代码
conda install conda-forge::transformers

配置VSCode

在写代码前,先配置一下写代码工具,那是必须的。这里以 VSCode 为例。

  1. 下载安装

通过 官网地址 进行下载安装。

  1. 安装拓展

vscode1.png

同时推荐安装 autoDocstring - Python Docstring Generatorautopep8。这样 VSCode 在编写 Python 代码时,可以提高代码质量和编写效率:

  • autoDocstring 快速生成代码的注释,提高代码可读性与可维护性。
  • autopep8,代码格式化工具。
  1. 引入 conda 环境

首先打开引入我们的大模型目录(D:\大模型)

vscode1.1.png

接着按住 Ctrl + Shift + P 打开命令面板,搜索“python 选择解析器”,选择上我们刚刚新建的 llm 环境。这样在VSCode中,我们就按照那个环境来跑我们的代码了。

image.png

尝试跑demo

  1. 根据官方的指导,首先在大模型同级目录下(D:\大模型),新建一个 qwen.py 文件,写入:
python
复制代码
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

# Now you do not need to add "trust_remote_code=True"
model = AutoModelForCausalLM.from_pretrained(
    "Qwen1.5-0.5B-Chat",  # 修改大模型位置
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen1.5-0.5B-Chat") # 修改大模型位置

# Instead of using model.chat(), we directly use model.generate()
# But you need to use tokenizer.apply_chat_template() to format your inputs as shown below
# 改成中文提问
prompt = "给我简单介绍一下大型语言模型。"
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

# Directly use generate() and tokenizer.decode() to get the output.
# Use `max_new_tokens` to control the maximum output length.
generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

# 打印一下助手回复的内容
print(response)

注:这里要修改对大模型的引入路径。

  1. 执行py文件:
sh
复制代码
python qwen.py

demo1.png

发现还是缺了一个依赖,安装:

sh
复制代码
conda install conda-forge::accelerate

再重新执行,这时候就可以看到模型的回复了。

demo2.png

如果想在VSCode中运行,则需要选择在“在专用终端中运行 Python 文件”。

demo3.png

运行效果如下:

demo4.png

如果想要流式的,可以改为以下代码:

python
复制代码
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

device = "cuda"  # the device to load the model onto

# Now you do not need to add "trust_remote_code=True"
model = AutoModelForCausalLM.from_pretrained(
    "Qwen1.5-0.5B-Chat",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen1.5-0.5B-Chat")

# Instead of using model.chat(), we directly use model.generate()
# But you need to use tokenizer.apply_chat_template() to format your inputs as shown below
# 改成中文提问
prompt = "给我简单介绍一下大型语言模型。"
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

# Directly use generate() and tokenizer.decode() to get the output.
# Use `max_new_tokens` to control the maximum output length.
streamer = TextIteratorStreamer(
    tokenizer, skip_prompt=True, skip_special_tokens=True)
generation_kwargs = dict(model_inputs, streamer=streamer, max_new_tokens=512)
thread = Thread(target=model.generate, kwargs=generation_kwargs)

thread.start()
generated_text = ""
for new_text in streamer:
    generated_text += new_text
    print(generated_text)

部署为API

这时候我们借助一个 FastAPI 和 Uvicorn 来实现 API 接口的支持。

  • FastAPI: 是一个用于构建 API 的现代、快速(高性能)的 web 框架,使用 Python 并基于标准的 Python 类型提示。
  • Uvicorn: 是一个快速的 ASGI(Asynchronous Server Gateway Interface)服务器,用于构建异步 Web 服务。

我是参考这篇文章学习的:Python框架篇(1):FastApi-快速入门

快速启动

  1. 首先我们安装这两个库:
sh
复制代码
conda install fastapi uvicorn
  1. 新建 web.py ,写入代码:
python
复制代码
import uvicorn
from fastapi import FastAPI
from fastapi.middleware.cors import CORSMiddleware
from argparse import ArgumentParser

app = FastAPI()

# 支持CORS
app.add_middleware(
    CORSMiddleware,
    allow_origins=['*'],
    allow_credentials=True,
    allow_methods=['*'],
    allow_headers=['*'],
)


@app.get("/")
async def index():

    return {"message": "Hello World"}


def _get_args():
    parser = ArgumentParser()

    parser.add_argument('--server-port',
                        type=int,
                        default=8000,
                        help='Demo server port.')
    parser.add_argument('--server-name',
                        type=str,
                        default='127.0.0.1',
                        help='Demo server name. Default: 127.0.0.1, which is only visible from the local computer.'
                        ' If you want other computers to access your server, use 0.0.0.0 instead.',
                        )

    args = parser.parse_args()
    return args


if __name__ == '__main__':
    args = _get_args()

    uvicorn.run(app, host=args.server_name, port=args.server_port, workers=1)
  1. 运行 web.py
sh
复制代码
python web.py

api0.png

这时候请求接口,就可以看到返回 hello world

api.png

接入大模型测试

上面已经启动API服务了,我们把前面 Qwen 的代码写进去:

python
复制代码
from contextlib import asynccontextmanager
import torch
import uvicorn
import time
from transformers import AutoModelForCausalLM, AutoTokenizer
from fastapi import FastAPI, HTTPException
from fastapi.middleware.cors import CORSMiddleware
from argparse import ArgumentParser
from typing import List, Literal, Optional, Union
from pydantic import BaseModel, Field


@asynccontextmanager
async def lifespan(app: FastAPI):  # collects GPU memory
    yield
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        torch.cuda.ipc_collect()

app = FastAPI(lifespan=lifespan)

# 支持CORS
app.add_middleware(
    CORSMiddleware,
    allow_origins=['*'],
    allow_credentials=True,
    allow_methods=['*'],
    allow_headers=['*'],
)


class ChatMessage(BaseModel):
    role: Literal['user', 'assistant', 'system']
    content: Optional[str]


class DeltaMessage(BaseModel):
    role: Optional[Literal['user', 'assistant', 'system']] = None
    content: Optional[str] = None


class ChatCompletionRequest(BaseModel):
    model: str
    messages: List[ChatMessage]
    stream: Optional[bool] = False


class ChatCompletionResponseChoice(BaseModel):
    index: int
    message: ChatMessage
    finish_reason: Literal['stop', 'length']


class ChatCompletionResponseStreamChoice(BaseModel):
    index: int
    delta: DeltaMessage
    finish_reason: Optional[Literal['stop', 'length']]


class ChatCompletionResponse(BaseModel):
    model: str
    object: Literal['chat.completion', 'chat.completion.chunk']
    choices: List[Union[ChatCompletionResponseChoice,
                        ChatCompletionResponseStreamChoice]]
    created: Optional[int] = Field(default_factory=lambda: int(time.time()))


@app.get("/")
async def index():

    return {"message": "Hello World"}


@app.post("/v1/chat/completions", response_model=ChatCompletionResponse)
async def create_chat_completion(request: ChatCompletionRequest):
    global model, tokenizer

    # 简单的错误校验
    if request.messages[-1].role != "user":
        raise HTTPException(status_code=400, detail="Invalid request")

    text = tokenizer.apply_chat_template(
        request.messages,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

    # Directly use generate() and tokenizer.decode() to get the output.
    # Use `max_new_tokens` to control the maximum output length.
    generated_ids = model.generate(
        model_inputs.input_ids,
        max_new_tokens=512
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    response = tokenizer.batch_decode(
        generated_ids, skip_special_tokens=True)[0]

    choice_data = ChatCompletionResponseChoice(
        index=0,
        message=ChatMessage(role="assistant", content=response),
        finish_reason="stop"
    )

    return ChatCompletionResponse(model=request.model, choices=[choice_data], object="chat.completion")


def _get_args():
    parser = ArgumentParser()

    parser.add_argument(
        '-c',
        '--checkpoint-path',
        type=str,
        default='Qwen1.5-0.5B-Chat',
        help='Checkpoint name or path, default to %(default)r',
    )

    parser.add_argument('--server-port',
                        type=int,
                        default=8000,
                        help='Demo server port.')
    parser.add_argument('--server-name',
                        type=str,
                        default='127.0.0.1',
                        help='Demo server name. Default: 127.0.0.1, which is only visible from the local computer.'
                        ' If you want other computers to access your server, use 0.0.0.0 instead.',
                        )

    args = parser.parse_args()
    return args


if __name__ == '__main__':
    args = _get_args()

    # Now you do not need to add "trust_remote_code=True"
    model = AutoModelForCausalLM.from_pretrained(
        args.checkpoint_path,
        torch_dtype="auto",
        device_map="auto"
    )
    tokenizer = AutoTokenizer.from_pretrained(args.checkpoint_path)

    uvicorn.run(app, host=args.server_name, port=args.server_port, workers=1)

调用下接口:

api2.png

可以看到接口已经返回内容了。

增加流式支持

这里需要安装 sse_starlette 的库,来支持流式的返回:

sh
复制代码
pip install sse_starlette

安装完把代码再改一下,通过参数 stream 来判断是否流式返回:

python
复制代码
from contextlib import asynccontextmanager
from threading import Thread
import torch
import uvicorn
import time
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, BatchEncoding
from fastapi import FastAPI, HTTPException
from fastapi.middleware.cors import CORSMiddleware
from argparse import ArgumentParser
from typing import List, Literal, Optional, Union
from pydantic import BaseModel, Field
from sse_starlette.sse import EventSourceResponse


@asynccontextmanager
async def lifespan(app: FastAPI):  # collects GPU memory
    yield
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        torch.cuda.ipc_collect()

app = FastAPI(lifespan=lifespan)

# 支持CORS
app.add_middleware(
    CORSMiddleware,
    allow_origins=['*'],
    allow_credentials=True,
    allow_methods=['*'],
    allow_headers=['*'],
)


class ChatMessage(BaseModel):
    role: Literal['user', 'assistant', 'system']
    content: Optional[str]


class DeltaMessage(BaseModel):
    role: Optional[Literal['user', 'assistant', 'system']] = None
    content: Optional[str] = None


class ChatCompletionRequest(BaseModel):
    model: str
    messages: List[ChatMessage]
    stream: Optional[bool] = False


class ChatCompletionResponseChoice(BaseModel):
    index: int
    message: ChatMessage
    finish_reason: Literal['stop', 'length']


class ChatCompletionResponseStreamChoice(BaseModel):
    index: int
    delta: DeltaMessage
    finish_reason: Optional[Literal['stop', 'length']]


class ChatCompletionResponse(BaseModel):
    model: str
    object: Literal['chat.completion', 'chat.completion.chunk']
    choices: List[Union[ChatCompletionResponseChoice,
                        ChatCompletionResponseStreamChoice]]
    created: Optional[int] = Field(default_factory=lambda: int(time.time()))


@app.get("/")
async def index():

    return {"message": "Hello World"}


@app.post("/v1/chat/completions", response_model=ChatCompletionResponse)
async def create_chat_completion(request: ChatCompletionRequest):
    global model, tokenizer

    # 简单的错误校验
    if request.messages[-1].role != "user":
        raise HTTPException(status_code=400, detail="Invalid request")

    text = tokenizer.apply_chat_template(
        request.messages,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

    if request.stream:
        generate = predict(model_inputs, request.model)
        return EventSourceResponse(generate, media_type="text/event-stream")

    # Directly use generate() and tokenizer.decode() to get the output.
    # Use `max_new_tokens` to control the maximum output length.
    generated_ids = model.generate(
        model_inputs.input_ids,
        max_new_tokens=512
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    response = tokenizer.batch_decode(
        generated_ids, skip_special_tokens=True)[0]

    choice_data = ChatCompletionResponseChoice(
        index=0,
        message=ChatMessage(role="assistant", content=response),
        finish_reason="stop"
    )

    return ChatCompletionResponse(model=request.model, choices=[choice_data], object="chat.completion")


async def predict(model_inputs: BatchEncoding,  model_id: str):
    global model, tokenizer

    streamer = TextIteratorStreamer(
        tokenizer, skip_prompt=True, skip_special_tokens=True)
    generation_kwargs = dict(
        model_inputs, streamer=streamer, max_new_tokens=512)
    thread = Thread(target=model.generate, kwargs=generation_kwargs)

    choice_data = ChatCompletionResponseStreamChoice(
        index=0,
        delta=DeltaMessage(role="assistant"),
        finish_reason=None
    )
    chunk = ChatCompletionResponse(model=model_id, choices=[
                                   choice_data], object="chat.completion.chunk")
    yield "{}".format(chunk.model_dump_json(exclude_unset=True))

    thread.start()
    for new_text in streamer:
        choice_data = ChatCompletionResponseStreamChoice(
            index=0,
            delta=DeltaMessage(content=new_text),
            finish_reason=None
        )

        chunk = ChatCompletionResponse(model=model_id, choices=[
                                       choice_data], object="chat.completion.chunk")
        yield "{}".format(chunk.model_dump_json(exclude_unset=True))

    choice_data = ChatCompletionResponseStreamChoice(
        index=0,
        delta=DeltaMessage(),
        finish_reason="stop"
    )
    chunk = ChatCompletionResponse(model=model_id, choices=[
                                   choice_data], object="chat.completion.chunk")
    yield "{}".format(chunk.model_dump_json(exclude_unset=True))
    yield '[DONE]'


def _get_args():
    parser = ArgumentParser()

    parser.add_argument(
        '-c',
        '--checkpoint-path',
        type=str,
        default='Qwen1.5-0.5B-Chat',
        help='Checkpoint name or path, default to %(default)r',
    )

    parser.add_argument('--server-port',
                        type=int,
                        default=8000,
                        help='Demo server port.')
    parser.add_argument('--server-name',
                        type=str,
                        default='127.0.0.1',
                        help='Demo server name. Default: 127.0.0.1, which is only visible from the local computer.'
                        ' If you want other computers to access your server, use 0.0.0.0 instead.',
                        )

    args = parser.parse_args()
    return args


if __name__ == '__main__':
    args = _get_args()

    # Now you do not need to add "trust_remote_code=True"
    model = AutoModelForCausalLM.from_pretrained(
        args.checkpoint_path,
        torch_dtype="auto",
        device_map="auto"
    )
    tokenizer = AutoTokenizer.from_pretrained(args.checkpoint_path)

    uvicorn.run(app, host=args.server_name, port=args.server_port, workers=1)

再调用接口:

api3.png

流式返回也支持了。

完善接口

接口更加完善的话可以参考 Qwen Github

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取==🆓

在这里插入图片描述

  • 27
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Davinci 是一种先进的人工智能模型训练框架,可以用于自然语言处理和语音合成等任务。在 Window 操作系统上部署 Davinci 需要以下几个步骤。 首先,确保您的计算机满足 Davinci 的系统要求。Davinci 要求电脑系统为64位的 Windows 10或更高版本,并且至少具有16 GB 的内存。同时,您需要保证在电脑上已经安装了 CUDA 和 cuDNN 的最新版本,以支持 DNN 模型的加速计算。 接下来,您需要下载并安装适用于 Windows 的 CUDA 和 cuDNN 工具包。这些工具包可以到官方网站上进行下载,并按照安装指南进行安装。安装完成后,您需要将 CUDA 和 cuDNN 的路径添加到系统的环境变量中,以便能够正确地引用这些工具包。 然后,在您的 Python 开发环境中安装 Davinci。可以使用 pip 安装指令,在命令行中输入 pip install -i https://pypi.douban.com/simple "davinci" 来安装 Davinci。等待安装完成后,您就可以在 Python 中引用 Davinci,并开始使用它进行模型训练和任务处理了。 最后,在您的代码中使用 Davinci 进行任务处理。您需要加载相应的模型,通过 Davinci 提供的 API 进行文本/语音处理,根据您的需求进行模型训练和生成文本或语音。可以根据 Davinci 的官方文档和示例代码来了解更多关于如何使用 Davinci 的详细信息。 总结起来,部署 Davinci 在 Window 上需要满足系统要求、安装 CUDA 和 cuDNN 工具包、安装 Davinci Python 包,并在代码中使用 Davinci 进行任务处理。希望以上回答能够对您有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值