山东大学项目实训-创新实训-法律文书专家系统-个人报告（一）-CSDN博客

本文链接：https://blog.csdn.net/eihh23333/article/details/147170101

前言：

在本项目中，我主要负责大模型的本地部署，个人工作主要围绕探索模型本地部署技术、模型训练、模型微调以及AI开发工具使用等方面展开。为了确保模型的稳定性、回答的特殊性，我在开发过程中具体需要做的事有：

在项目开发过程中我选择从Bright Data、Statista、Datarade、AWS Data Exchange 、Zyte、Kaggle等数据集网站获取相关数据。

Kaggle

适合数据科学的免费公共数据集和工具。

什么是数据集？数据集是与特定主题相关的数据集合，通常以结构化的格式组织。这个结构通常是表格、电子表格或文件组。在表格和电子表格中，列定义了结构，而行代表了数据记录，如Excel文件。

由于本地GPU仅有3060 laptop，算力明显不足，因此选择使用autodl提供的线上GPU租赁平台来提供算力，但在租赁之前我们需要了解deepseek什么时候会用到GPU

不需要使用GPU但是当加载大模型时，现存不足，部分框架会自动将模型权重卸载到CPU

生成文本：

GPU 负责计算注意力机制（Attention）、矩阵乘法（GEMM）等核心操作，显存大小直接影响：
- 支持的模型规模（如 6GB 显存可运行 7B 4-bit 量化模型，但无法运行全精度 7B）。
- 推理速度（GPU 的 CUDA 核心数决定 tokens/s）。

因此该阶段GPU是必须的

强烈依赖GPU

微调需要计算梯度并更新权重，显存占用远高于推理：
- 全参数微调：7B 模型需 >80GB 显存（需 A100 80GB）。
- LoRA/QLoRA：可降低显存需求（如 7B 模型需 16~24GB 显存）。
关键操作：
- 反向传播（Backpropagation）。
- 优化器状态存储（如 AdamW 需额外显存）。

量化操作：量化（Quantization） 是深度学习中的一种模型压缩技术，通过 降低模型参数的数值精度（如从 32 位浮点数 FP32 降到 8 位整数 INT8 或 4 位 INT4），从而减少模型的计算量、显存占用和存储空间，同时尽量保持模型的推理性能。

不依赖GPU，但GPU可以对该过程加速

计算评估指标（如困惑度 Perplexity）时，小批量数据可以在 CPU 上运行，但 GPU 会更快。但总体上来说并不依赖GPU

常用的评估手段