大模型文件夹中的各种文件都是些啥？

IT修炼家

已于 2024-10-12 17:51:35 修改

阅读量3.4k

点赞数 42

分类专栏：大模型基础文章标签：人工智能大模型

于 2024-10-12 17:46:45 首次发布

本文链接：https://blog.csdn.net/qq_42755230/article/details/142882781

版权

大模型基础专栏收录该内容

10 篇文章

订阅专栏

在大语言模型（LLM）训练、微调和部署过程中，通常会涉及到多种不同类型的文件。每种文件都有特定的用途，以便存储模型的结构、参数、配置以及辅助信息。这些文件对于模型的运行、管理和进一步优化都是非常重要的。以下是一些常见的大模型相关文件及其作用：
在这里插入图片描述

1、模型文件

1.1 pytorch_model.bin

这个文件包含了模型的预训练权重，是 PyTorch 格式的二进制文件。在 Hugging Face Transformers 中，通常以 .bin 格式保存模型的参数。

1.2 tf_model.h5

如果模型是用 TensorFlow 训练的，参数会保存在 .h5 文件中。这是 TensorFlow 格式的模型文件。

1.3 model-00001-of-0000x.safetensors

模型的权重，使用 .safetensors 格式。safetensors 是一种替代传统 .bin 格式的权重保存格式，它是专为安全、快速加载而设计的。

1.4 adapter_model.safetensors

存储适配器模型的权重，使用 .safetensors 格式。

adapter_model.safetensors 是一种用于存储适配器（adapter）模型权重的文件，通常用于参数高效微调（PEFT, Parameter-Efficient Fine-Tuning）的大模型。在 NLP 和大语言模型（LLM）的训练和微调过程中，使用适配器是一种非常有效的方法，可以在保持原始模型大部分参数冻结的情况下，通过训练少量新增参数来适应特定任务。

适配器（Adapter）是什么？

适配器是一种微调方法，旨在降低传统微调过程中的内存和计算开销。适配器模型通过在原有的大模型的特定层中插入一些小的模块来进行训练，这些模块通常参数量较小，只需要少量的计算资源就可以实现模型在新任务上的有效微调。
在适配器训练中，主模型的大部分参数保持冻结状态，仅训练适配器模块中的参数，这样既保留了主模型的通用知识，又能够快速适应新任务。

1.5 checkpoint

checkpoint：在训练或微调过程中，模型的状态可以保存为多个 检查点（checkpoint），以便在训练中断后从上次的状态继续。每个 checkpoint 可能包含参数权重、优化器状态等。

2、配置文件

2.1 config.json

config.json：该文件包含模型的配置信息，如模型层数、隐藏层大小、注意力头数等。配置文件定义了模型的架构，是模型加载时需要参考的重要内容。微调或部署模型时，这个文件可以用于创建模型的架构。

2.2 training_args.json

training_args.json：这个文件记录了训练时的超参数设置，例如学习率、批量大小、优化器类型等。它通常用于再现训练过程或在微调中使用相同的参数设置。

2.3 adapter_config.json

包含适配器（adapter）配置的信息。适配器是一种参数高效微调方法，通过添加较小的模块在模型内部进行特定任务的适应性训练。这个文件定义了适配器的结构和超参数（如层数、隐藏层维度等）。

3、词汇表文件

3.1 vocab.txt | vocab.json

vocab.txt 或 vocab.json：这个文件包含了模型所用的词汇表。对于 BERT 这样的模型，vocab.txt 存储了词汇和对应的索引。对于 GPT-3 或其他使用字节对编码（BPE）的模型，vocab.json 会保存分词后的词汇与其编码关系。

3.2 merges.txt

merges.txt 是一个用于**字节对编码（BPE, Byte Pair Encoding）**分词算法的文件。在自然语言处理领域，尤其是大语言模型（如 GPT、BERT 等）中，BPE 分词是一种常见的分词方式，它能够将输入的文本分割为模型可以理解的子词单元，以有效应对词汇量过大、长尾词等问题。

BPE 分词与 `merges.txt`

字节对编码（BPE） 是一种数据压缩和分词技术，能够逐步将最频繁的字符对合并为子词，最终形成适合语言模型的词汇表。在这个过程中，merges.txt 文件保存了合并规则的历史记录。

BPE 分词的原理：
1. 初始化：一开始，所有单词都会被分割成最小的单元（即字符）。
2. 统计频率：统计文本中所有字符对的出现频率，找到出现次数最多的字符对。
3. 合并字符对：将这个频率最高的字符对合并为一个新的子词单元，并将这个新子词加入词汇表中。
4. 重复步骤：反复执行该过程，直到达到预设的词汇表大小或者没有频繁的字符对可以合并。
merges.txt 文件的内容：
- merges.txt 文件记录了每一步中合并的字符对信息，这些信息用于在分词过程中恢复原来的合并过程。
- 每一行代表一个字符对（或子词对）的合并规则。例如：
```
t h
th e
e r
er y
```