“AutoModelForCausalLM.from_pretrained“参数说明

IT修炼家

已于 2024-10-10 18:08:02 修改

阅读量1w

点赞数 21

分类专栏：大模型相关函数参数说明文章标签：深度学习人工智能大模型

于 2024-10-08 12:44:31 首次发布

本文链接：https://blog.csdn.net/qq_42755230/article/details/142756635

版权

大模型相关函数参数说明专栏收录该内容

4 篇文章

订阅专栏

`AutoModelForCausalLM.from_pretrained` 参数解析

AutoModelForCausalLM.from_pretrained 是 Hugging Face transformers 库中用于加载预训练因果语言模型（Causal Language Model）的常用方法之一。这个方法允许用户从预训练模型库中加载模型，同时支持多种参数以自定义加载过程。以下是该方法的详细参数说明。

参数说明：

1. `pretrained_model_name_or_path`

类型: str
描述: 预训练模型的名称或路径。可以是 Hugging Face 模型库中的模型名称（如 gpt2），也可以是本地模型文件夹的路径。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2")
model = AutoModelForCausalLM.from_pretrained("./my_local_model")

2. `config`

类型: PretrainedConfig 对象, 可选
描述: 自定义的模型配置对象。可以传入一个 PretrainedConfig 对象，用于手动配置模型。如果未提供，系统会从 pretrained_model_name_or_path 自动加载相应的配置。

示例:

from transformers import GPT2Config
config = GPT2Config()
model = AutoModelForCausalLM.from_pretrained("gpt2", config=config)

3. `state_dict`

类型: dict, 可选
描述: 预加载的模型权重字典。如果你希望使用自定义的权重加载模型，可以提供一个 state_dict 字典来初始化模型权重。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2", state_dict=my_state_dict)

4. `cache_dir`

类型: str, 可选
描述: 指定缓存目录，用于下载和存储模型文件。如果希望将下载的模型文件存储到自定义的目录中，可以设置此参数。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2", cache_dir="./cache")

5. `from_tf`

类型: bool, 可选
描述: 是否从 TensorFlow 模型加载权重。如果设置为 True，则会从 TensorFlow 模型文件（ckpt 格式）中加载模型权重。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2", from_tf=True)

6. `force_download`

类型: bool, 可选
默认值: False
描述: 是否强制重新下载模型权重。即使模型文件已经缓存在本地，设置 force_download=True 会重新下载并覆盖本地缓存。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2", force_download=True)

7. `resume_download`

类型: bool, 可选
默认值: False
描述: 在下载过程中，如果发生中断，是否从中断点继续下载。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2", resume_download=True)

8. `proxies`

类型: Dict[str, str], 可选
描述: 一个用于配置网络代理的字典，帮助你通过代理服务器下载模型。典型格式为 {"http": "http://proxy.com", "https": "https://proxy.com"}。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2", proxies={"http": "http://proxy.com", "https": "https://proxy.com"})

9. `output_loading_info`

类型: bool, 可选
描述: 如果设置为 True，该方法会返回关于哪些权重成功加载、哪些权重初始化为默认值的信息。

示例:

model, loading_info = AutoModelForCausalLM.from_pretrained("gpt2", output_loading_info=True)

10. `local_files_only`

类型: bool, 可选
默认值: False
描述: 是否仅从本地文件加载模型，而不尝试从 Hugging Face 模型库下载。如果设置为 True，则会跳过远程下载，只从本地缓存或文件加载模型。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2", local_files_only=True)

11. `use_auth_token`

类型: Union[bool, str], 可选
描述: 用于访问 Hugging Face 私有模型的身份验证令牌。如果你需要访问私有模型，传入令牌字符串，或者设置为 True 来自动读取配置文件中的令牌。

示例:

model = AutoModelForCausalLM.from_pretrained("private-model", use_auth_token="your_huggingface_token")

12. `revision`

类型: str, 可选
默认值: "main"
描述: 加载模型的版本，可以指定 Git 分支、标签或提交 ID。如果模型库中存在多个版本，可以通过此参数加载特定版本。

示例:

model = AutoModelForCausalLM.from_pretrained("gpt2", revision="v1.0")

13. `trust_remote_code`

类型: bool, 可选
默认值: False
描述: 是否允许执行远程代码。如果远程仓库中的代码包含自定义模型实现，并且需要执行这些代码，则设置为 True。这个功能用于加载某些 Hugging Face 仓库中的自定义模型。

示例:

model = AutoModelForCausalLM.from_pretrained("custom-model", trust_remote_code=True)

14. `kwargs`

描述: 其他任何关键字参数（kwargs）将传递给模型的 from_pretrained 方法，允许进一步定制模型加载过程。

常见组合示例：

加载本地模型并指定缓存目录：

model = AutoModelForCausalLM.from_pretrained("./my_model", cache_dir="./cache")

使用代理服务器下载模型：

model = AutoModelForCausalLM.from_pretrained(
    "gpt2",
    proxies={"http": "http://proxy.com", "https": "https://proxy.com"}
)

使用 TensorFlow 模型加载权重：

model = AutoModelForCausalLM.from_pretrained("gpt2", from_tf=True)

加载私有模型并使用身份验证令牌：

model = AutoModelForCausalLM.from_pretrained("private-model", use_auth_token="your_token_here")

总结

AutoModelForCausalLM.from_pretrained 是一个强大且灵活的接口，允许用户从 Hugging Face 模型库或本地路径加载预训练模型。通过配置多个参数，用户可以自定义模型加载方式、选择下载或缓存的目录、启用代理、指定模型版本等。这为开发者提供了极大的灵活性，特别是在加载大规模因果语言模型（如 GPT 系列）时。