大模型微调
文章平均质量分 92
大模型微调
有为少年
一步步,一点点
展开
-
Arixv 2403 | Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
在当前以大型模型和大型数据集为主导的时代,PEFT 作为一种非常有吸引力的方法脱颖而出,可以有效地使模型适应下游任务。该技术通过解决传统全模型微调带来的重大挑战而获得吸引力,传统全模型微调通常对普通用户提出难以满足的计算和数据需求。PEFT 的有效性通常对其超参数敏感,例如适配器瓶颈尺寸、LoRA 秩以及不同附加性 PEFT 层的放置。手动调整这些超参数将花费大量精力。因此,未来的努力可以集中在开发更少依赖手动调整这些参数的方法,或者自动找到最佳的超参数设置。原创 2024-04-02 17:09:00 · 283 阅读 · 0 评论 -
Arxiv 2305 | Refocusing Is Key to Transfer Learning
本文提出的TOAST强调的是在预训练模型迁移过程中进一步强化目标任务相关的注意力信息是很重要的。Transformer 模型通常是自下而上的,即其注意力仅取决于输入,因此,它通常突出输入信号中的所有显着特征。与自底而上的注意力相反,由顶而下的注意力赋予了根据高级目标或任务调整注意力的能力,即它只关注与任务相关的特征而忽略其他特征。原创 2023-07-10 18:59:38 · 585 阅读 · 0 评论