近年来,个性化大模型逐渐成为推荐系统领域的研究热点。这类模型通过深度学习技术和大规模预训练语言模型的结合,极大地提升了推荐系统的智能化水平。相比传统推荐方法,大语言模型能够更精准地理解用户需求,不仅可以从显式的用户行为中挖掘偏好,还能从隐式特征中捕捉潜在兴趣。此外,个性化大模型在处理多模态数据、跨语言推荐以及动态行为变化方面表现出强大的适应能力,为构建智能化、多场景覆盖的推荐系统奠定了基础。同时,随着模型压缩和参数高效微调技术的进步,个性化大模型逐步向高效化和可用性方向发展,在保障用户隐私的同时实现了对多样化推荐场景的支持。未来,这一领域的发展前景广阔,将在电商、媒体内容分发、智能社交等领域发挥重要作用。
本文结合四篇相关研究论文,分别介绍了 HYDRA、iLoRA、SLIM 和 OPPU 四种个性化推荐方法。HYDRA 提出了基于模型分解的框架,通过重排序和适配机制优化推荐内容;iLoRA 聚焦于序列推荐,利用实例化参数和门控机制捕捉用户动态偏好;SLIM 借助逐步知识蒸馏技术,提升小模型的推理能力;OPPU 则通过参数高效微调(PEFT)实现了非序列化的个性化推荐。这些研究为个性化推荐领域提供了创新思路,展示了大模型技术在未来应用中的广阔潜力。
01.通过实例化LoRA定制语言模型以实现顺序推荐
Customizing Language Models with Instance-wise LoRA for Sequential Recommendation (NeurIPS, 2024)
动机
当前方法通常通过高质量提示的构建来增强推荐信息的表达能力,并将这些提示用于训练数据集的指令微调。然而,大多数方法采用单一的LoRA模块,这意味着LLM的权重被冻结,模型仅通过两个额外的可训练低秩矩阵进行更新。这种设计限制了LoRA潜在的性能提升空间,同时也使单一模块的适用性受到约束。特别是在用户行为表现出显著个体差异性的情况下,如兴趣偏好、行为模式和反馈机制的多样性,单一LoRA模块难以有效捕捉这些复杂特性,导致其在面对不同行为变量的序列推荐任务时显得力不从心。这种局限可能导致模块高估行为序列间的相似性,从而引发负迁移,严重影响推荐效果。因此,如何改进LoRA以更好地适应用户行为的多样性,成为一个亟待解决的重要问题。
方法
设计思路:
iLoRA 的设计核心是为了解决推荐系统中个性化需求和用户行为多样性的问题,通过引入动态微调的 LoRA 模块,有效减少负迁移问题。其设计基于将每个用户行为序列视为独立任务,首先通过 SR-EMB 模块提取用户的行为序列特征,生成序列嵌入,用于捕捉个体用户的偏好模式。然后,利用门控网络根据序列嵌入动态分配权重,为多个专家模块生成个性化的贡献分布。每个专家模块由低秩矩阵组成,专注于特定维度的用户行为模式,门控网络的权重分配使这些专家模块的上投影矩阵和下投影矩阵根据用户行为动态组合,从而生成定制化的 LoRA 参数矩阵。这种动态生成机制能够适应用户行为的多样性,同时避免了传统统一 LoRA 模块带来的负迁移问题。此外,iLoRA 的 Adapter 模块整合了序列嵌入与文本嵌入,充分利用多模态信息增强推荐的准确性。通过上述设计,iLoRA 实现了对用户行为序列的动态适配,显著提升了推荐性能,并在多个场景中展现了其稳健性和适用性。
图1-1 模型示意图
具体模型:
1、将低秩矩阵分解为多个专家
把LoRA中的下投影矩阵B和上投影矩阵A分别划分为多个子矩阵(专家矩阵),每个子矩阵用于捕捉用户行为的特定方面。
2、针对专家生成实例化的注意力权重
在完成专家矩阵的划分后,iLoRA 使用门控网络(Gating Network)为每个专家生成实例化的注意力权重。具体过程如下:
①针对一个用户行为序列,通过序列推荐模型(SASRec)提取其表示z,该表示包含了用户行为的总体特征。
②接下来,通过线性变换和 softmax 函数对 z 进行处理,生成各专家的注意力权重 ω。这些权重被标准化,确保每个专家对推荐系统的影响程度是平衡的
3、聚合专家生成实例化的 LoRA
将之前划分的不同上投影和下投影子矩阵按照注意力权重进行组合,从而生成该实例的LoRA参数
实验
实验结果与结论
表1-1整体结果
1. 与传统序列推荐模型的对比
iLoRA 的表现显著优于传统序列推荐模型(如 GRU4Rec、Caser 和 SASRec)。这些传统模型虽然能够生成有效的推荐响应(ValidRatio 始终为 1.0000),但由于缺乏对用户行为序列复杂性和多样性的深度建模能力,其 HitRatio@1 在所有数据集上均低于 iLoRA。这一对比表明,iLoRA 通过动态微调和个性化参数生成,能够更精准地捕捉用户行为模式,从而显著提升推荐的准确性。
2. 与通用 LLM 模型的对比
与通用大语言模型(如 Llama2)相比,iLoRA 展现了大幅的性能提升。Llama2 由于缺乏针对推荐任务的优化,HitRatio@1 表现非常低,甚至在部分数据集上接近于随机推荐水平。而 iLoRA 的动态参数生成机制充分利用了用户行为序列的特征,为每个用户生成定制化的推荐微调参数,从而有效解决了通用模型在推荐任务中表现不足的问题。
3. 跨多个数据集的稳健性
在 LastFM、MovieLens 和 Steam 等不同领域的数据集上,iLoRA 始终保持了优异的表现。无论是音乐、电影还是游戏领域,iLoRA 的 HitRatio@1 均达到了当前实验的最高水平,显示出其在多样化场景中的强适应性。这一结果证明了 iLoRA 的方法不仅能解决个性化推荐问题,还具有广泛的应用潜力。
4. 总体结论
与所有基线模型相比,iLoRA 的动态微调机制显著提升了推荐准确性,特别是在个性化推荐任务中表现出色。通过门控网络和专家模块的设计,iLoRA 有效缓解了负迁移问题,并在多个数据集上展现了稳健性和广泛的适用性。这些结果充分验证了 iLoRA 在推荐系统中的独特优势。
02.通过个性化参数高效微调实现大语言模型的个性化
Democratizing Large Language Models via Personalized Parameter-Efficient Fine-tuning (EMNLP, 2024)
动机
论文指出,现有的大语言模型个性化方法面临诸多挑战,主要集中在方法局限性和用户行为动态性两方面。一方面,当前的方法大多依赖于提示模板设计,通过向模型输入中加入用户历史信息和偏好来实现个性化。然而,这种集中式的个性化方式导致用户缺乏对模型的所有权,同时模型在应对复杂或不直接相关的历史行为时难以有效泛化用户的行为模式。另一方面,用户的行为和偏好具有显著的动态性,现有方法在适应用户行为变化方面表现不足,尤其在用户偏好频繁变化或数据相关性较低的场景下,基于检索的个性化方法难以提供持续有效的个性化支持。为此,需要一种能够同时应对用户行为变化和数据动态性的个性化解决方案,以提升大语言模型的个性化能力和适用性。
方法
设计思路:
提出了一种名为OPPU (One PEFT Per User) 的个性化框架,其核心思路是通过结合参数高效微调(PEFT)和非参数化个性化方法(如检索增强和档案增强),为每个用户创建一个包含个性化行为模式的PEFT模块,从而实现对用户行为模式的精准建模。首先,作者基于任务需求对基础大语言模型进行适配(包括非个性化模型、检索增强模型和档案增强模型),使其具备处理个性化任务的能力。随后,通过为每个用户单独训练私有的PEFT模块,将用户的个性化信息嵌入模型中,并利用检索增强和档案增强的方法进一步整合非参数化用户知识,以弥补仅依赖参数化个性化的局限性。最终,OPPU框架通过参数化和非参数化方法的结合,在动态用户行为和数据变化的情况下表现出显著的个性化能力和泛化能力。
图2-1 模型示意图
具体模型:
1、通过PEFT注入参数化个性知识
为每个用户分配一个专属的PEFT模块,例如LoRA,用于捕获用户的行为模式并进行个性化调整。具体来说,收集用户行为历史,包括输入和输出,并将其作为训练数据对PEFT模块进行优化。优化过程中,通过交叉熵损失函数,调整PEFT模块的参数,使其能够更准确地反映用户历史行为模式。这一过程确保用户的历史数据嵌入模型中,同时保证个性化数据的独立性和隐私性。
2. PEFT模块与非参数化个性化方法结合
(1)检索增强
通过检索器从用户的行为历史中提取与当前任务最相关的行为记录。这些记录被直接拼接到输入序列中,增强提示的个性化程度。检索出的内容通过结合PEFT模块的训练进一步优化模型对用户特定需求的理解。
(2)档案增强
利用一个指令调优的LLM(例如Vicuna或ChatGPT),从用户的历史数据中自动生成用户档案。这些档案以自然语言的形式总结用户的偏好和行为模式,并作为辅助输入加入到模型的提示中,进一步完善非参数化个性化。
3. 整合参数化与非参数化个性化知识
最终模型通过将用户的非参数化知识(来自检索增强和档案增强)与参数化知识(来自PEFT模块)结合,以生成用户专属的“个人LLM”。这种整合方法能够动态适应用户行为模式的变化,同时增强模型对用户特定需求的泛化能力,从而实现高效、隐私友好的个性化大模型。
实验
实验结果与结论
表2_-1整体结果_
1. OPPU与单一增强方法的对比
相比单一的检索增强(RAG)和档案增强(PAG),OPPU模型通过整合参数化个性化(PEFT模块)与非参数化个性化(检索或档案),进一步提升了性能。OPPU在所有任务中均超越了RAG和PAG的最佳性能,表明其方法在结合用户深层次行为模式和外部知识上更具优势。RAG和PAG的性能受限于输入历史的相关性和准确性,而OPPU的PEFT模块能够更全面地捕捉用户历史行为特征,有效避免了单一方法可能引入的噪声问题。
2. OPPU在多任务场景下的优势
OPPU在分类任务和生成任务中的表现均优于其他对比方法。在分类任务中,OPPU通过整合用户历史信息,实现了更高的准确率和F1分数,体现出其对用户行为偏好的深度理解。在生成任务中,无论是基于检索增强还是档案增强的OPPU,其生成质量均超过单一增强方法,尤其在ROUGE得分上表现突出。这表明OPPU能够更好地整合用户历史偏好,生成更契合用户需求的内容。
表2-2用户行为变化下的模型表现
1.任务与历史数据格式不一致的影响
即便在这种不一致的情况下,OPPU的准确率和F1分数均显著提高,展示了其在信息缺失或不一致情况下的适应能力。
2.用户行为变化的适应性
当用户行为变化时,检索增强方法在相关性低的历史记录下性能下降,接近于非个性化基线。而OPPU在这种情境下依然表现出更高的泛化能力,甚至超越了使用所有历史数据的私有PEFT训练,表明其能够适应行为变化。
03.小型语言模型能否在序列推荐中成为优秀的推理者?
Can Small Language Models be Good Reasoners for Sequential Recommendation? (WWW, 2024)
动机
近年来,大型语言模型(LLMs)因其强大的链式推理能力(CoT)在自然语言处理和推荐系统领域展现出显著潜力,尤其是在复杂用户行为建模和生成个性化推荐方面。然而,LLMs在实际应用中面临两大挑战:一方面,其高昂的计算成本限制了在资源受限场景中的应用;另一方面,直接依赖LLMs生成的推理可能与推荐任务不完全相关,影响实际效果。因此,本研究提出了逐步知识蒸馏(SLIM)框架,通过让LLMs引导小型模型(SLMs)学习链式推理能力,以推荐理由(Rationale)为标签,显著降低计算资源需求,同时保留高质量的推理能力。SLIM不仅提升了推荐的效率和解释性,还扩展了小型模型在冷启动、数据稀疏和个性化推荐场景中的应用潜力,从而为LLMs在推荐领域的实用化提供了一种创新性的解决方案。
方法
设计思路:
本文设计了一种逐步知识蒸馏(SLIM)框架,旨在通过知识蒸馏将大型语言模型(LLMs)的链式推理能力高效传递给小型语言模型(SLMs),以在显著降低计算成本的同时实现高质量的推荐。SLIM首先利用LLMs根据用户历史行为生成分步推荐理由(Rationale),包括用户兴趣总结、类别或品牌筛选以及具体物品推荐;随后,将这些推荐理由作为知识标签,训练SLMs通过生成损失学习链式推理能力。在推荐阶段,SLMs根据用户行为生成推荐理由,并将其编码为序列表示,与候选物品的文本表示或ID表示结合,通过得分计算筛选出最符合用户兴趣的物品,生成Top-N推荐列表。SLIM框架不仅能够适应ID-based和ID-agnostic场景,还为冷启动、数据稀疏等问题提供了解决方案,兼顾了推荐系统的效率、个性化和解释性。
图3-1 模型示意图
具体模型:
1、逐步知识蒸馏
(1)CoT提示教师模型生成推荐理由:
①总结用户偏好 ②基于用户偏好推荐适合的类别 ③在②的基础上推荐具体产品
(2)知识蒸馏:
①使用生成的推荐理由作为标签:教师模型生成的推荐理由被当作“知识标签”,用于指导小模型学习教师模型的推理能力。
②简化提示:为了减轻小模型的理解负担,SLIM框架对教师模型的提示进行了简化,在学生模型中减少提示的复杂度,只保留生成的推荐逻辑中的关键内容。
③负对数似然损失(Negative Log-Likelihood Loss):通过负对数似然损失函数来优化学生模型,使其输出能够更接近教师模型生成的推荐逻辑。
(3)参数微调:SLIM框架采用LoRA技术进行高效微调,使学生模型逐渐获得链式推理能力
(4)结果验证与迭代
在训练过程中,通过验证小模型生成的推荐理由是否与教师模型生成的理由保持一致来评估蒸馏效果。如果小模型能够有效生成与教师模型相似的推理逻辑,说明蒸馏过程成功。
2、推荐知识编码:将用户行为和商品描述转化为语义嵌入,以供后续推荐使用。其中,序列编码器(Seq Encoder)会对用户的行为序列进行编码,生成序列的嵌入表示。而文本编码器(Text Encoder)将推荐理由和商品描述转化为统一的向量空间中的表示,使得推荐系统可以基于文本相似性执行推荐操作
3、推理增强推荐:
ID-based(基于ID的推荐):作者通过信息融合层(Information Fusion Layer)将用户行为的文本表示(即基于推理的序列表示)与原始ID表示结合,从而为推荐系统注入开放领域的推理知识,增强推荐效果。
ID-agnostic(无ID的推荐):在无ID推荐场景中,SLIM框架直接利用用户行为的文本表示和商品描述文本表示,将二者映射到统一的语义空间,通过文本相似度进行推荐。
4、优化:整个模型通过生成损失(Generative Loss)进行优化。首先,通过二元交叉熵损失来训练模型的预测结果,以提高推荐的准确性。接着,使用知识蒸馏损失函数来优化小模型,使其逐步接近教师模型的推理能力。模型的优化目标是使小模型能够在有限的计算资源下生成合理的推荐理由,提升推荐系统的效率和可解释性。
实验
实验结果与结论
表3-1基于ID场景的实验结果
表3-2不基于ID场景的实验结果
1、基于ID的场景:
通过表3-1能够看出:
①SLIM优于所有传统模型及其拓展版本:
在三个数据集(Games、Food、Home)上的实验结果表明,SLIM相比于所有传统的基线推荐模型(如GRU4Rec、SASRec、SRGNN)以及其增强版本(+Item Feature Extensions)均表现出显著优势。这些结果表明,通过知识蒸馏,SLIM生成的推荐理由能够有效地增强传统基线模型的性能。
SLIM优于未经过蒸馏的SLIM-:
②SLIM相比于直接使用教师模型生成推荐理由的SLIM-表现更优。这表明,通过知识蒸馏,小型学生模型在理解用户行为和生成高质量推荐理由方面更加高效且相关性更强。相比于直接使用教师模型生成推荐理由(SLIM-),蒸馏过程进一步强化了模型在推荐任务中的表现。
2、无ID场景
①SLIM优于未经过蒸馏的SLIM-:
在无ID场景下,SLIM的表现依然优于SLIM-。这表明,尽管SLIM使用的模型参数量远小于教师模型,其生成的推荐理由仍然更贴合用户行为,与候选物品的匹配效果更优。
②SLIM在无ID场景中的表现优于表1中所有基于ID的backbone模型:
SLIM在无ID场景下使用文本匹配的方式,整体表现超过了表1中所有基于ID的传统backbone模型。这种优势表明,SLIM框架中的推荐理由生成和基于文本的匹配方法可以有效弥补无ID场景中的数据稀疏问题。
③推荐理由的逐步生成能力:
在无ID场景下,SLIM框架生成的推荐理由分为三个步骤:Step1(用户偏好总结)、Step2(类别推荐)和Step3(具体商品推荐)。实验结果显示,仅使用Step3生成的推荐理由表现甚至优于使用完整推荐理由(Step1+Step2+Step3)的效果。这表明,小模型通过链式推理提示(CoT)能够逐步生成符合人类思维逻辑的推荐结果,其中后续步骤的推荐信息与用户行为及物品更加相关。
图3-2 热门偏好分析
根据上图,在实验中,本文通过统计训练数据中的物品频率,并比较了SASRec和SLIM在推荐结果中的物品频率,发现SLIM更善于推荐这些小众的、很少出现的商品而SASRec则倾向于推荐热门头部物品。SLIM生成的推荐更关注用户的独特偏好,而不仅仅是推荐那些热门的商品。
04.HYDRA:用于黑箱大语言模型个性化的模型分解框架
HYDRA: Model Factorization Framework for Black-Box LLM Personalization (NeurIPS, 2024)
动机
在黑箱大语言模型(LLM)中实现个性化输出是一项极具挑战性的任务,因为模型参数无法直接访问,这使得传统的微调或参数修改方法无法适用。这一限制导致现有方法在个性化生成中难以有效地兼顾用户特定行为模式与全局共享知识的捕捉。当前的个性化方法主要通过设计用户特定的提示或对白箱模型进行微调来实现,然而,这些方法往往在泛化性和对用户群体间共性知识的利用上存在明显不足。本文创造性的通过一种模型分解的框架 HYDRA,有效地结合用户特定的行为模式和全局共享知识,以实现更加普遍且高效的个性化生成。HYDRA 不仅提取用户历史数据中最有用的信息,还通过基于中心模型与多个用户特定头的架构来实现个性化。该方法旨在克服传统提示设计的缺点,在不访问模型内部参数的情况下提升个性化生成的效果,从而为黑箱模型的个性化应用提供新的思路。
方法
设计思路:
HYDRA 的设计思路是通过模型分解的方式,在黑箱大语言模型(LLM)中实现高效的个性化生成。具体而言,HYDRA 构建了一个基于共享基础模型(Base Model)与用户特定头部(User-Specific Heads)的分层架构,既能够捕捉用户的个性化行为模式,又能利用所有用户的共享知识。首先,HYDRA 使用一个检索增强的框架,从用户的历史数据中提取与当前查询最相关的记录;接着,重排序器(Reranker)对这些记录进行筛选,选出最能反映用户偏好的信息;最后,适配器(Adapter)结合筛选后的历史记录与黑箱 LLM 的生成内容,对候选生成结果进行个性化筛选和优化。通过这种模块化设计,HYDRA 在不访问模型内部参数的情况下,实现了用户个性化偏好与全局知识的有效结合,为黑箱 LLM 的个性化应用提供了创新的解决方案。
_图4-1模型示意图 _
具体模型:
1、检索-重排序框架
①检索阶段:从用户的历史记录中检索出与输入查询最相关的N条记录。这样可以有效缩小历史数据的范围,为后续的个性化生成提供参考。
②重排序阶段:利用重排序器进一步筛选出最有用的K条历史记录。通过对检索到的记录进行重新排序,确保选出的记录能更好地反映用户偏好,从而更准确地支持个性化输出。
2、HYDRA-重排序器的训练与推理
①训练数据生成:通过检索得到的用户历史记录集合为每个用户生成候选训练样本,然后由LLM生成候选响应并与真实答案进行比较,用于构建训练标签。
②训练目标:通过交叉熵损失函数对重排序器进行训练,使其能学会识别出对于个性化生成最有帮助的用户历史记录。
③推理:在推理阶段,使用训练好的重排序器筛选出用户历史记录中最有用的Top-K候选项,以增强个性化生成效果。
3、黑箱LLM的适配器训练
①训练数据生成:将用户查询q与重排序后的历史记录C结合,生成候选响应r,作为适配器的训练输入;采样多个候选生成内容,通过与真实答案的比较来评估这些生成内容的适应性。
②适配器的训练:类似于重排序器的训练过程,利用交叉熵损失函数来优化适配器,使其能在给定查询和历史记录的基础上识别出最符合用户偏好的生成内容。
4、模型分解:将每个用户的个性化模型参数分解为共享的基础模型参数(σ)和用户特定的个性化头(τ)。
①基础模型(σ):负责存储所有用户的共享知识,维持一个通用的模型能力。
②用户特定头部(τ(u)):为每个用户保留其个性化偏好,通过与基础模型的组合来实现用户特定的个性化生成。
③新用户的适配:当遇到测试集中新的用户时,只需固定基础模型σ的参数,并为新用户创建并训练其个性化头τ,通过以下方式更新,避免了重新训练整个模型的需求。
5、推理阶段
在推理阶段,HYDRA将LLM视为一个生成器,而适配器作为评估器。针对黑箱LLM会生成多个候选响应,通过适配器对候选输出进行打分,选取得分最高的响应作为最终结果,从而确保输出最符合用户偏好。
实验
实验结果与结论
表4-1 整体实验结果
1、HYDRA 的整体性能最优:HYDRA 在所有任务中均显著优于其他方法,包括 RAG(Retrieval-Augmented Generation)、PAG(Profile-Augmented Generation)以及 ICL(In-Context Learning)等基线方法。相比这些基线,HYDRA 通过结合共享基础模型和用户特定头部,实现了对用户历史记录的高效利用,提升了个性化生成的精度和可靠性。
2、重排序器和适配器的有效性:单独使用重排序器(HYDRA-Reranker)或适配器(HYDRA-Adapter)也能带来显著的性能提升,这表明它们在各自的任务中发挥了重要作用。重排序器在筛选用户历史记录中表现出色,而适配器则在对生成结果的个性化优化中起到了关键作用。
3、完整 HYDRA 的协同优势:当重排序器和适配器协同工作时,HYDRA 的整体性能优于单独使用其中任何一个模块。这说明两个模块的结合能够更好地实现个性化目标,重排序器提供了高质量的历史记录输入,而适配器进一步优化了生成内容的选择。
4、相比传统方法的显著改进:相比 RAG 和 PAG 方法,HYDRA 克服了传统提示设计中对全局知识捕捉不足的问题,同时避免了简单检索带来的信息噪声。通过重排序器和适配器的设计,HYDRA 实现了对用户历史记录和生成内容的精细筛选,从而在生成任务中表现出色。
总结
个性化推荐是推荐系统的重要研究方向,其核心在于通过挖掘用户行为数据和偏好特征,实现对用户需求的精准捕捉与动态适配。在近年来的研究中,大语言模型(LLM)的强大生成能力与推理能力为个性化推荐提供了新的解决思路。本文介绍的四篇论文(HYDRA、iLoRA、SLIM、OPPU)分别从不同的技术角度探索了如何在LLM中实现高效、灵活的个性化推荐。通过深入分析这些论文的实现方法,可以总结出它们在行为建模、模块化设计、动态适应性和个性化与共享知识平衡方面的共性特征,为个性化推荐系统的设计提供了系统性指导。以下从四个方面对这些共性进行详细阐述:
1、行为建模:HYDRA和iLoRA通过历史记录和行为序列提取用户偏好,OPPU则通过个性化参数来捕捉用户特征。这种行为建模方法确保了模型能够根据用户的实际需求进行调整,为个性化推荐奠定了坚实的基础。
2、模块化设计:通过模块化结构将共性知识与个性化需求分离
HYDRA通过基础模型和多个用户特定“头”来分离共性知识与个性化偏好;iLoRA则使用专家混合(MoE)模块,不同专家专门处理不同用户偏好。OPPU采用每用户一个PEFT参数,确保用户的个性化需求与共性模块分开。
3、动态适应用户行为变化:iLoRA通过门控网络选择合适的专家模块,实现动态推荐;HYDRA的重排序器通过不断更新历史数据优先级,动态优化推荐内容;OPPU通过实时更新PEFT参数,确保推荐内容与用户行为变化保持一致。
4、平衡个性化和共享知识:HYDRA的基础模型保留共享知识,用户特定的“头”则专注于个性化需求;iLoRA通过不同专家模块来平衡共性与个性化需求;OPPU通过非参数化的知识(如检索信息)与参数化的个性化模块结合,确保推荐既具通用性又具个性化。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。