大模型入门实战：通过 HuggingFace 调用 Llama3

冻感糕人~

已于 2025-01-10 11:44:53 修改

阅读量1.5k

点赞数 11

文章标签：大模型应用大语言模型什么是大模型 AI大模型大模型入门 HuggingFace llama3

于 2025-01-10 11:44:23 首次发布

本文链接：https://blog.csdn.net/python12345_/article/details/145054308

版权

这篇文章将详细介绍如何使用 Hugging Face 平台下载和调用 Llama 模型，并提供代码示例用于测试。

Hugging Face

Hugging Face 是一家专注于人工智能和自然语言处理（NLP）的公司，以其开源工具和模型生态系统而闻名。它提供了丰富的工具链，包括：

Transformers：加载、微调和部署预训练模型。
Datasets：用于高效加载和处理数据集。
Hugging Face Hub：开源模型和数据集托管平台。

通过 Hugging Face，开发者可以方便地访问各种预训练模型，并快速部署到自己的项目中。

1. 注册 Hugging Face 账号

首先，进入 Hugging Face 官网，注册一个账号。这一步没什么好讲的，不再赘述。

2. 申请模型访问权限

Llama 模型是受限制的资源，使用前需要申请访问权限。以下是具体步骤：

2.1 搜索并选择模型

登录后，点击顶部导航栏的 “Models”。
在搜索栏输入 llama，找到目标模型并点击进入。

在这里插入图片描述

2.2 提交申请

进入模型页面后，点击 “Expand to review access” 按钮展开许可说明。

在这里插入图片描述

滑动到页面底部，填写申请信息。
填写内容不用完全真实，但尽量不要太离谱。
提交申请后，等待管理员审批。

在这里插入图片描述

2.3 查看申请状态

点击头像，进入 “Settings”。
左侧菜单选择 “Gated Repositories” 。
查看申请状态，状态变为 ACCEPTED 即表示通过。

通常审批时间在半小时左右。

在这里插入图片描述

3. 获取 Access Token

在 “Settings” 页面，点击左侧的 “Access Tokens” 。
点击 “Create new token” 按钮。

在这里插入图片描述

在弹出框中选择 Read 权限，输入 Token 名称并点击 “Create Token”。

在这里插入图片描述

复制生成的 Token，后续用于模型下载。

在这里插入图片描述

使用 Python 下载并调用 Llama 模型

1. 安装依赖

在运行代码前，需要安装必要的 Python 库：

pip install transformers torch

2. 代码实现

以下是一个简单的调用示例，将 Hugging Face Token 替换为你自己的 Token 即可运行。

创建一个名为 demo.py 的文件，粘贴以下代码：

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

# 模型名称
model = "meta-llama/Llama-3.2-1B"
# Hugging Face Token
auth_token = "hf_xxxxxxxxxxxxx"

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained(model, token=auth_token)
model = AutoModelForCausalLM.from_pretrained(model, token=auth_token)
model.config.pad_token_id = tokenizer.eos_token_id

# 构建文本生成流水线
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.float16,
    device_map="auto",
    framework="pt"
)

# 输入提示文本
prompt = "<s>[INST] 你认为学习的意义是什么？ [/INST]"

# 模型生成
sequences = pipeline(
    prompt,
    do_sample=True,  # 使用采样策略
    top_k=10,        # 采样时只保留前 k 个最高概率的 token
    num_return_sequences=4,  # 返回生成序列数量
    return_full_text=False,  # 只返回生成文本
    max_length=500,          # 最大生成长度
    temperature=0.7,         # 随机性控制
    repetition_penalty=1.2,  # 重复惩罚因子
    pad_token_id=tokenizer.eos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    truncation=True          # 超长截断
)

# 输出结果
for seq in sequences:
    response = seq['generated_text'].split('[/INST]')[-1].strip()
    print(f"AI: {response}")