在 Hugging Face 的 transformers 库中,GPT(Generative Pre-trained Transformer)类的模型有两个常用的生成文本的方法:generate
和 chat
。这两个方法在使用上有一些区别。通常公司发布的 LLM 模型会有一个基础版本,还会有一个 Chat 版本。比如,Qwen-7B(基础版本)和 Qwen-7B-Chat(Chat 版本)。
1. model.generate()方法
generate
方法是模型的原生方法,用于生成文本。- 通常用于批量生成文本数据,可以根据特定的输入和条件生成一组文本。
- 使用时需要传递一些参数,如
max_length
(生成文本的最大长度)、num_beams
(束搜索的数量,用于增强生成的多样性)等。
函数说明
- 主要参数包括:
- input_ids: 启动生成的输入token ID的张量。
- max_length: (可选)生成文本的最大长度。
- min_length: (可选)生成文本的最小长度。
- do_sample: (可选)是否在每一步进行概率采样来选择下一个token。
- temperature: (可选)调节随机性的温度参数。
- top_k: (可选)每一步中考虑的最高概率token的数量。
- top_p: (可选)进行nucleus sampling时使用的累积概率阈值。
- num_beams: (可选)波束搜索中使用的波束数。
- no_repeat_ngram_size: (可选)禁止生成中重复出现的n-gram大小。
- 其他生成特定的参数。
- 输出结果为:
- 生成的token ID序列。通常这些token ID可以用分配的tokenizer解码为文本。
代码样例
这里以 ChatGLM-6B
模型为例,模型文件已下载至本地路径。
from transformers import AutoTokenizer, AutoModelForCausalLM
device = "cuda:0"
# 直接加载模型
model_path = "./model/chatglm-6b"
tokenizer = AutoTokenizer