[笔记.AI]大模型训练 与 向量值 的关系

(借助 DeepSeek-V3 辅助生成) 

大模型在训练后是否会改变向量化的值,取决于模型的训练阶段和使用方式。以下是详细分析:

1. 预训练阶段:向量化值必然改变
  • 动态调整过程
    在预训练阶段(如BERT、GPT的初始训练),模型的嵌入层(Embedding Layer)作为可训练参数,通过反向传播不断优化。每个词或子词的向量会根据上下文共现模式和任务目标(如掩码语言建模、自回归预测)动态调整。

  • 示例

    • 词汇“苹果”在初始时可能随机分布,但经过训练后,其向量会靠近“水果”或“公司”(取决于上下文频率)。

    • 语义关系(如“国王-男人+女人≈女王”)在此阶段被编码到向量空间中。


2. 预训练完成后:向量化值固定
  • 冻结模型参数
    一旦预训练完成且模型参数被冻结(不再更新),向量化的值将保持不变。此时模型仅用于推理(如生成文本、特征提取)。

  • 应用场景

    • 直接使用预训练模型提取文本向量(如BERT的CLS向量)。

    • 在未微调的情况下处理下游任务,向量化值不变化。


3. 微调阶段:向量化值可能改变
  • 微调策略决定是否更新
    在特定任务上微调时,通常有两种策略:

    1. 全参数微调:解冻所有模型参数(包括嵌入层),向量化的值会随新任务的数据调整。

      • 适用场景:数据量充足,需深度适配领域特性(如法律文本微调)。

      • 影响:“合同”等专业术语的向量会更贴近领域语义。

    2. 部分参数微调:仅解冻部分层(如顶层Transformer块),保持嵌入层冻结。

      • 适用场景:数据量少,防止过拟合。

      • 影响:向量化值不变,模型依赖预训练语义。

  • 轻量级微调技术

    • Prompt Tuning:仅优化提示词(Prompt)的向量,不修改原始嵌入。

    • Adapter:在模型中插入小型可训练模块,保持原始参数(包括嵌入)固定。

    • LoRA:通过低秩矩阵调整注意力层,不改变嵌入层。


4. 不同模型架构的差异
  • BERT vs. GPT

    • BERT:由于双向注意力机制,微调时嵌入层调整可能更显著(需适配全局上下文)。

    • GPT:单向自回归生成,嵌入层调整侧重于左向上下文适配。

  • 静态嵌入 vs. 动态嵌入

    • 静态嵌入(如Word2Vec):训练完成后向量固定,无法随任务调整。

    • 动态嵌入(如BERT、GPT):嵌入层可参与微调,向量值可变。


5. 为什么需要改变向量化值?
  • 领域适配
    通用语料训练的向量可能无法准确表示专业术语(如医疗词汇“化疗”需更接近“癌症”而非日常语境)。

  • 语义演化
    新词汇(如“元宇宙”)或词义变化(如“直播”从电视到互联网)需更新向量。

  • 任务需求
    情感分析任务需强化情感极性(如“优秀”向量靠近“积极”方向)。


6. 实际应用中的权衡
场景是否改变向量化值优缺点
直接推理保持预训练通用性,但无法适配领域或新任务。
全参数微调最大化任务性能,但需大量数据且计算成本高。
轻量级微调节省计算资源,适合小数据,但性能可能受限。
在线学习(持续训练)动态适应新数据(如新闻模型跟踪热点事件),但需谨慎管理灾难性遗忘。

总结

  • 预训练阶段:向量化值必然改变,模型学习通用语义表示。

  • 推理阶段(无微调):向量化值固定,直接应用预训练知识。

  • 微调阶段:根据策略选择是否更新向量化值,全参数微调会改变,轻量级方法则保持固定。

  • 核心权衡:领域适配需求 vs. 计算成本 & 过拟合风险。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俊哥V

这是个嘛?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值