近日训练营的一位复旦大学的女硕士告诉我,上周去参加某厂大模型岗复试,面试官问了 LongLoRA 微调。最终咱们这位复旦女硕士还是被这小小的问题给难住痛失 offer。那么这 LongLoRA 微调到底是啥呢?今天就来给大家好好讲讲。
01
面试官心理分析
首先面试官问这个问题呢,其实主要是想考你 3 点内容。
第一,你知不知道 LongLoRA 微调,有没有看过相关的 paper。如果你听都没有听过,那显然这道题就不用继续了。
第二,LongLoRA 微调主要解决的是什么样的问题,为什么要提出这种微调策略,是基于什么样的背景。
第三,它是怎么解决的问题,展开详细讲讲。
好,那接下来我们就沿着面试官的心理预期,来回答一下这道题目。
02
面试题解析
首先说下背景,LongLoRA 是港中文和 MIT 在 23 年发表的一篇 paper,主要是为了解决长上下文的注意力机制计算量很大的问题。
我们知道,现在大模型的上下文是越做越长,像 OpenAI GPT4-Turbo 支持到了 128K,Kimi 甚至支持到了 200K 的长度。
长文本影响最大的就是 self-attention ,因为它的显存占用和计算量是随着长度平方变化的。
所以这里我们就答出了第一个得分点,LongLoRA 解决了一个什么样的问题,基于什么样的背景和动机。
其实面试跟大家平时考试答题一样,也有得分点,不是说你答的越多就越好,重要的是答到点子上。
面试时间就那么一两个小时,你长篇大论一堆,面试官是没有那么多耐心听的,反而给面试减分。
好,我们接着来看。
那 LongLoRA 怎么解决的这个问题呢?
在回答这类问题的时候,建议大家先整体概括,再展开表述,同时尽量结合画图,这样思路更加清晰。
比如这里,先整体概括一下,LongLoRA 的原则是,虽然在推理过程中需要密集的全局注意力,但通过稀疏的局部注意力可以有效且高效地微调模型。
具体来说呢,LongLoRA 在微调期间延长了上下文长度,同时使用 Lora 方法保持了高性能和低复杂性,它提出了 shifted sparse attention 的微调方案,我们简称为 S2-Attention。
在训练阶段使用 S2-Attention,推理时用全局注意力。
我们看下面这张图,S2-Attention 在微调阶段,使用的是局部注意力,而不是全局注意力。
也就是将输入文档分解为几个不同的组,并在每个组中分别应用注意力机制,大家注意看图中的 Pattern1。
那这种方式有什么好处呢?
好处就是它能够在资源占用不多的情况下拓展长度。
那缺点呢?
由于不同组之间缺乏信息交换,随着长度增大,会导致部分信息的丢失。因此 S2-Attention 又引入了组大小一半的移位操作,确保相邻组之间顺利的信息交换。
我们看图中的 Pattern 2,那这个改进有助于模型在文本开头和结尾之间顺利交换信息,提高了模型的稳定性。
说的大白话一点,就是对每个 token 而言,真正跟它有一定关联程度的,绝大部分都在相近的区域内,不需要看太远,但为了保持前后注意力的连贯性,所以加上了移位操作。
零基础如何学习大模型 AI
领取方式在文末
为什么要学习大模型?
学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。
大模型典型应用场景
①AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
②AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
③AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
④AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。
⑤AI+零售:智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为,提供个性化商品推荐,同时优化库存,减少浪费。
⑥AI+交通:自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶,并优化交通信号控制,减少拥堵。
…
这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。
学习资料领取
如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
部分资料展示
一、 AI大模型学习路线图
整个学习分为7个阶段
二、AI大模型实战案例
涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
三、视频和书籍PDF合集
从入门到进阶这里都有,跟着老师学习事半功倍。
四、LLM面试题
如果二维码失效,可以点击下方链接,一样的哦
【CSDN大礼包】最新AI大模型资源包,这里全都有!无偿分享!!!
😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~