[笔记.AI]大模型训练与向量值的关系

俊哥V

已于 2025-03-29 18:28:00 修改

阅读量540

点赞数 4

分类专栏： AI 技术理解由AI辅助创作文章标签：人工智能笔记向量化

于 2025-03-29 18:25:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/debug_fan/article/details/146704618

版权

AI 同时被 3 个专栏收录

46 篇文章

订阅专栏

由AI辅助创作

38 篇文章

订阅专栏

28 篇文章

订阅专栏

（借助 DeepSeek-V3 辅助生成）

大模型在训练后是否会改变向量化的值，取决于模型的训练阶段和使用方式。以下是详细分析：

1. 预训练阶段：向量化值必然改变

动态调整过程：
在预训练阶段（如BERT、GPT的初始训练），模型的嵌入层（Embedding Layer）作为可训练参数，通过反向传播不断优化。每个词或子词的向量会根据上下文共现模式和任务目标（如掩码语言建模、自回归预测）动态调整。
示例：
- 词汇“苹果”在初始时可能随机分布，但经过训练后，其向量会靠近“水果”或“公司”（取决于上下文频率）。
- 语义关系（如“国王-男人+女人≈女王”）在此阶段被编码到向量空间中。

2. 预训练完成后：向量化值固定

冻结模型参数：
一旦预训练完成且模型参数被冻结（不再更新），向量化的值将保持不变。此时模型仅用于推理（如生成文本、特征提取）。
应用场景：
- 直接使用预训练模型提取文本向量（如BERT的CLS向量）。
- 在未微调的情况下处理下游任务，向量化值不变化。

3. 微调阶段：向量化值可能改变

微调策略决定是否更新：
在特定任务上微调时，通常有两种策略：
1. 全参数微调：解冻所有模型参数（包括嵌入层），向量化的值会随新任务的数据调整。
  - 适用场景：数据量充足，需深度适配领域特性（如法律文本微调）。
  - 影响：“合同”等专业术语的向量会更贴近领域语义。
2. 部分参数微调：仅解冻部分层（如顶层Transformer块），保持嵌入层冻结。
  - 适用场景：数据量少，防止过拟合。
  - 影响：向量化值不变，模型依赖预训练语义。
轻量级微调技术：
- Prompt Tuning：仅优化提示词（Prompt）的向量，不修改原始嵌入。
- Adapter：在模型中插入小型可训练模块，保持原始参数（包括嵌入）固定。
- LoRA：通过低秩矩阵调整注意力层，不改变嵌入层。

4. 不同模型架构的差异

BERT vs. GPT：
- BERT：由于双向注意力机制，微调时嵌入层调整可能更显著（需适配全局上下文）。
- GPT：单向自回归生成，嵌入层调整侧重于左向上下文适配。
静态嵌入 vs. 动态嵌入：
- 静态嵌入（如Word2Vec）：训练完成后向量固定，无法随任务调整。
- 动态嵌入（如BERT、GPT）：嵌入层可参与微调，向量值可变。

5. 为什么需要改变向量化值？

领域适配：
通用语料训练的向量可能无法准确表示专业术语（如医疗词汇“化疗”需更接近“癌症”而非日常语境）。
语义演化：
新词汇（如“元宇宙”）或词义变化（如“直播”从电视到互联网）需更新向量。
任务需求：
情感分析任务需强化情感极性（如“优秀”向量靠近“积极”方向）。

6. 实际应用中的权衡

场景	是否改变向量化值	优缺点
直接推理	否	保持预训练通用性，但无法适配领域或新任务。
全参数微调	是	最大化任务性能，但需大量数据且计算成本高。
轻量级微调	否	节省计算资源，适合小数据，但性能可能受限。
在线学习（持续训练）	是	动态适应新数据（如新闻模型跟踪热点事件），但需谨慎管理灾难性遗忘。

总结

预训练阶段：向量化值必然改变，模型学习通用语义表示。
推理阶段（无微调）：向量化值固定，直接应用预训练知识。
微调阶段：根据策略选择是否更新向量化值，全参数微调会改变，轻量级方法则保持固定。
核心权衡：领域适配需求 vs. 计算成本 & 过拟合风险。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

俊哥V 这是个嘛？

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。