原文地址
思考题
问题1:什么是LoRA?主要作用在哪些层?(解决)
答案:Lora是抵秩分解,主要原因是在微调之后发现各种线性层并不是满秩,都是具有很低的本征秩,主要作用在Attention模块中的4种权重矩阵,通过消融实验发现同时调整Wq和Wv会产生最佳效果
问题2:Lora的技术原理是怎么样的?(解决)
答案:如下图所示,在线性层中加入旁路,A用来降低维数,B用来增加维数,通常r选择为4或者8
问题3:什么是Qlora?技术原理是什么样的?(解决)
答案:思想是:先将模型进行量化处理,减少模型参数的内存占用,然后使用Lora方法在低秩近似空间中对模型进行微调。
技术原理是:量化+Lora
问题4:详细介绍一下量化技术?(解决)
答案:量化是将模型的高精度权重(如32位浮点数)转化为低精度格式(8位或者4位)。
量化的方法:后量化:在模型训练完成后,将模型的权重量化为更低的精度
动态量化:在推理阶段动态地将权重量化为低精度格式,是指在模型实际使用的过程中,当需要进行计算时,模型的权重会被即时地从高精度转换为低精度。这种情况下不会损失模型的性能。
问题5:什么是AdaLoRA?技术原理是什么样的?(解决)
答案:主要思想是动态调整不同矩阵的秩,从而更灵活地使用不同任务。
技术原理:自适应秩调整,反馈秩是否过少过多的机制,动态低秩分解
问题6:本章的主要内容和结构是什么样的?(解决)
答案:主要讲了Lora以及Lora的变体,结构为:技术是什么,技术原理是什么,可以解决什么问题。