【项目实训】基于大模型的小学语数英辅助教育平台 | Prefix调研(5)

prefix tuning

[2101.00190] Prefix-Tuning: Optimizing Continuous Prompts for Generation (arxiv.org)

之前的工作:prompt tunning,人工设计模板(离散模板),鲁棒性差

这种方法是对大型预训练语言模型(LMs)进行微调的一种替代方案,它在保持语言模型参数不变的情况下,只优化一个小型的连续任务特定向量(称为前缀)。前缀调优的灵感来源于提示(prompting),允许后续的token将这个前缀视为“虚拟token”。作者将前缀调优应用于GPT-2的表格到文本生成任务和BART的摘要生成任务。

定义

在模型输入前添加一个连续的且任务特定的向量序列(prefix),将token构造成一段任务相关的virtual tokens,固定PLM参数只优化特定任务prefix(离散→连续)

prefix是模块化的,LM不变但是可以支持多个不同的任务

问题陈述

一个生成任务,输入context x,输出y是一个token序列,主要关注两个任务:

        table-to-text:x对应于线性化数据表,y是文本描述

        总结任务:x是文章,y是简短摘要

实验设置

使用了三个标准的神经生成数据集来评估表格到文本任务,以及XSUM数据集来评估摘要生成任务。

主要结果

前缀调优在表格到文本生成任务中表现出色,即使只学习了0.1%的参数,也能达到与全参数微调相当的表现。在低数据设置下,前缀调优平均优于微调。此外,前缀调优在处理未见过的主题的泛化能力上也表现更好。

内在评估

研究了前缀长度、仅调整嵌入层、前缀与内缀的比较以及不同的前缀初始化策略对性能的影响。

讨论

讨论了前缀调优的一些优点,如个性化和跨用户批处理的能力,以及前缀调优的归纳偏差。

结论

前缀调优是一种有效的轻量级微调替代方案,它在全数据设置下能够保持与微调相当的表现,在低数据和泛化设置下胜过微调。

### 大模型微调训练的方法和流程 #### 预训练阶段概述 在预训练阶段,大型模型会利用海量未标注的数据集进行训练,旨在让模型获取语言的基础统计特性和广泛的知识。这一过程属于无监督学习范畴,在此过程中形成的基座模型具备了一定程度上的泛化预测能力[^4]。 #### 微调的重要性及其目的 针对特定应用场景的需求,直接采用未经调整的预训练模型往往难以达到最优性能。因此,有必要对这些预训练好的基座模型实施进一步优化——即所谓的“微调”。通过对自有领域内有代表性的数据集执行针对性更强的学习迭代,可以使模型更好地贴合实际业务需求并提高准确性[^2]。 #### 主要微调策略介绍 ##### LoRA(Low-Rank Adaptation) 这种方法基于大模型内部存在的低秩特性而设计,通过引入额外的小规模旁路矩阵来近似实现全面参数更新的效果。相比传统方式能够显著减少计算资源消耗的同时保持甚至超越原有精度水平。它不仅适用于自然语言处理任务中的大语言模型(LLMs),同样可以在图像生成等领域发挥重要作用[^3]。 ```python from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=8, lora_alpha=32, target_modules=["q_proj", "v_proj"], lora_dropout=0.05, ) model = get_peft_model(model, lora_config) ``` ##### Prefix Tuning 该方案聚焦于仅改变输入序列前缀部分对应的嵌入向量表示形式来进行局部修正,而非改动整个网络架构或权重值本身。这种方式能够在不破坏原始模型结构的前提下有效提升某些特殊场景下的表达力与适应度。 ```python prefix_tuning_config = PrefixTuningConfig(num_virtual_tokens=30) model = get_peft_model(model, prefix_tuning_config) ``` #### 完整微调工作流描述 从整体上看,一个典型的大模型微调项目通常遵循如下几个关键环节: - **准备高质量领域专用语料库**:收集整理足够数量级且具有鲜明行业特色的样本资料作为后续训练素材; - **加载已有的预训练模型实例**:选取合适版本号的开源框架所提供的基础版大模型,并将其初始化为当前环境内的可用对象; - **应用选定的技术手段开展具体操作**:依据实际情况决定采取何种类型的微调措施(如上述提到的LoRA或是Prefix Tuning),编写相应配置文件及脚本代码片段; - **评估改进后的成果质量**:借助验证测试集合衡量经过一轮或多轮次迭代之后的新版本相较于初始状态究竟取得了哪些进步之处;最后部署上线至生产环境中投入使用之前还需经历严格的审核批准程序确保安全可靠运行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值