LORA的全称为 LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS LORA,即大语言模型的低秩适配。看到这里,相信你对LORA应该有了一个基本的一脸懵逼!
不要紧,慢慢往下看,你就明白了。
看完还不明白咋办?来,打我!
为什么需要LORA?
因为穷啊!
大模型参数都是7B,13B,70B甚至更大,拿人家的预训练模型想要微调一下来做自己的任务,丫的,根本就微调不动,哪有钱买那么多显卡!
于是LORA就说了,没关系,模型原有的参数weights太大,训练不了就放那里吧,但是我会额外的训练一个参数量更小的模块(或者说是模型),让这个更小的模块附加在原大模型上,当有输入input进来时,此时的输出就是原有模型和附加的小模块共同作用后的结果,如下图:
若原大模型的参数是W0,额外训练的模块的参数是△W,输入为x,那么此时的输出h就是
h = W0·X+△W·X = W0·X+BA·X
为什么LORA这样做可以?
因为:预训练模型拥有极小的内在维度(instrisic dimension),即存在一个极低维度的参数,微调它和在全参数空间中微调能起到相同的效果。
极小的内在维度是什么?又没看懂吧,要不怎么说论文读起来就是有高级感呢!
就不能说的通俗点,让我那小学毕业的发小刘二狗也能听懂?
其实说白了就是:
大模型虽然有70亿参数(假设),但在做某一个(或一类)任务时,对输出结果有影响的参数可能只有1亿个,另外69亿个参数对结果基本没啥影响,也就是说在做这些任务时只有一小部分参数有用,大部分参数没用。
这样的话,在微调模型的时候,只需要微调这1亿参数就可以了,上图中右侧的橘黄色部分就代表这1亿参数。
如此一来,就将微调所需的算力和内存大大的减少了,虽然你依然穷,但也勉强可以自己炼个丹了~
LORA实现原理
受instrisic dimension的启发,作者认为参数更新过程中也存在一个“内在秩”。对于预训练权重矩阵W0 (mxn),通过低秩分解来分解为两个矩阵A(mxr),B(rxn)。
(补充关于矩阵分解:对于一个m*n的矩阵,若它的秩是r,则可以通过m*r和r*n的矩阵近似表示)
也就是用新权重矩阵A和B来近似的表示了原权重矩阵W0,但是通过通过低秩分解大大降低了需要训练参数的数量。
假设原矩阵W0为100*100,那么参数量为10000,若选取W0的秩为10,那么△W=A+B=100*10+10*100=2000,参数量减少了80%!
训练过程中冻结原权重矩阵W0,仅训练权重矩阵A和B中的参数,如下图中所示,蓝色部分会冻结,仅训练橘黄色部分。
此时的前向传播过程为:
h = W0·X+△W·X = W0·X+BA·X
-
原大模型的参数是W0,额外训练的模块的参数是△W,输入为x,矩阵A 为高斯随机初始化,矩阵B初始化为0,这样一开始△W=0,整个模型的输出与预训练模型一样,有利于模型的收敛。
-
里只对attention层中的参数进行矩阵分解,包括Wq,Wk,Wv,Wo
-
当r=d的时候,就相当于对所有参数进行微调
-
没有额外的inference延迟,因为最后计算的时候可以先让W0和△W相加,然后再乘x,与之前直接和x相乘的计算量差不多。h=(W0+BA)·X
矩阵分解的位置与秩的选择
矩阵分解的位置:
实验中只是对attention层中的参数进行了矩阵分解,发现在总参数量保持一致的情况下,同时施加在Wq,Wk,Wv,Wo这4个参数上时效果最好,单独施加效在某一个参数上时果最差。
秩的选择:
r取4能够得到较好的效果。作者也通过实验说明当r较小时与较大的r能够有很高的相似性,即使是在秩小到1或者2的时候,LORA的仍有不错的效果。
另外实验发现,△Wq具有比△Wv有更高的“内在秩”,当r= 64时,两次随机种子运行之间的标准化子空间相似性来进一步确认这一点,如下图所示,也就是说虽然Wq,Wk,Wv都很重要,但从实验来看,Wq更重要一些。
零基础如何学习AI大模型
领取方式在文末
为什么要学习大模型?
学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。
大模型典型应用场景
①AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
②AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
③AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
④AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。
…
这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。
学习资料领取
如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
部分资料展示
一、 AI大模型学习路线图
整个学习分为7个阶段
二、AI大模型实战案例
涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
三、视频和书籍PDF合集
从入门到进阶这里都有,跟着老师学习事半功倍。
四、LLM面试题
五、AI产品经理面试题
😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈