1. 论文标题:《Personalization of Large Language Models: A Survey》
个性化LLM:综述
2. 论文链接: https://arxiv.org/pdf/2411.00027
3. 作者所在机构:Dartmouth College、Adobe Research、Stanford University、University of Massachusetts Amherst、Pattern Data、Vanderbilt University、 Dolby Research、 University of California San Diego、Cisco Research、University of Oregon
4.一句话概括该论文:论文通过提出个性化大语言模型(LLM)使用的分类法,总结关键差异和挑战,对个性化 LLM 进行了形式化定义,统一了不同领域的文献,涵盖个性化粒度、技术、数据集、评估方法和应用等方面,并指出了未来研究面临的挑战和问题,为相关研究和实践提供了全面指导。
一、背景
将 LLMs 适应于用户特定背景的个性化需求日益增长。个性化可使模型生成符合用户或用户群体独特需求和偏好的响应,在客户支持、教育、医疗等领域至关重要,能提高用户满意度,增强应用效果。
现有关于个性化 LLMs 的研究主要分为个性化文本生成和在下游个性化任务中的应用两类,且各自独立发展,缺乏统一视角。该论文通过提出分类法统一不同领域文献,包括对个性化 LLM 使用的分类、形式化定义、个性化粒度、技术、评估、数据集和应用的分类分析,还指出了未来研究面临的挑战和问题,为研究人员和从业者提供全面指导。
二、LLM个性化-工作分类
论文提出了一个直观的分类法将个性化的LLM工作分为两个主要类别:直接个性化文本生成和间接下游任务个性化。
1. 直接个性化文本生成(personalized text generated)
在个性化文本生成中,目标是直接生成与个人或群体偏好一致的文本,如个性化心理健康聊天机器人需根据用户之前的对话生成共情回应,通过人类评估或基于文本的指标(如 ROUGE 等)直接评估生成文本的质量,将其与用户实际书写的真实文本进行对比。
以基于检索增强生成(RAG)的框架为例说明。对于用户 i,结合用户文档、属性、交互等信息,通过查询生成函数和检索模型获取与用户相关的 top-k 数据,再利用个性化提示生成函数将其与用户输入文本组合成个性化输入,最后由 LLM 生成个性化文本。部分研究专注于生成此类文本并与用户真实文本对比评估,但由于高质量用户标注数据集稀缺,该研究方向关注度有限,更多研究倾向于间接利用个性化文本来改进下游任务。
2. 间接下游任务个性化(downstream task)
下游任务个性化则是利用个性化信息作为中间步骤或隐式嵌入来改进下游任务(如推荐系统)的质量,例如 LLM 增强的电影推荐系统通过分析用户观看历史等生成中间token或embedding,以提升推荐性能,其性能通过推荐准确性等特定任务指标评估,重点在于改进任务结果而非文本生成过程。
许多工作致力于利用个性化文本或其embedding来增强下游任务,如推荐任务。通常将用户特定embedding或中间文本与其他任务相关信息结合,形成统一表示后输入下游任务模型,从而产生预测结果。
虽然直接文本生成和下游任务个性化看似不同,但它们共享一些组件和机制,如都涉及用户数据检索与利用、构建个性化元素以增强模型输出等,只是在数据集和评估方法上有所区别,且两者可相互补充,共同推动个性化 LLM 的发展。
三、LLM个性化-理论基础
1、个性化的定义
个性化是指根据用户特定的数据、历史交互以及上下文信息来调整 LLMs 的输出,使得输出能够满足用户个体或者特定用户群体的偏好、需求以及特征。这种调整的目的是提升用户满意度并且增强内容与用户的相关性。
1. 用户偏好(User Preferences): 用户偏好包含用户在内容风格、主题、语气等诸多方面的喜好。通过捕捉和利用用户偏好,LLMs 可以生成更贴合用户需求的输出。
2. 个性化大语言模型(Personalized LLMs): 经过个性化调整后的 LLMs。这种调整可以通过多种方式实现,比如在预训练模型的基础上,利用用户特定的数据进行微调,或者在生成过程中动态地结合用户信息。
3. 用户文档(User Documents): 用户自己创作的各种文本,如笔记、评论、博客文章等。这些用户文档蕴含了丰富的用户信息,例如用户的知识领域、观点、写作风格等。例如,从用户的学术笔记中可以了解到用户的专业领域,从用户的影评中可以推断出用户对电影类型的偏好。
4. 用户属性(User Attributes): 用户相对稳定的特征,如年龄、性别、地理位置、职业等。这些属性可以为个性化提供长期的参考。例如,根据用户的地理位置,可以为其推荐当地的新闻或者活动;根据用户的职业,可能为其提供相关行业的资讯。
5. 用户交互(User Interactions): 主要包括用户与 LLMs 之间的对话、用户对推荐内容的反馈(如点击、点赞、评论等)等。这些交互记录是动态的,能够实时反映用户的兴趣变化。例如,在对话过程中,用户对某个话题表现出浓厚的兴趣,那么后续的输出就可以更多地围绕这个话题展开。
2、个性化数据
在下游个性化任务中常用的用户特定信息的各种格式如下:
1.静态属性( Static Attributes): 指相对恒定的用户和项目信息,如用户的人口统计信息(年龄、性别、位置、职业等)和项目的元数据(标题、发布日期、类型等)。这些信息是许多个性化策略的基础,常用于用户和项目的细分以实现更有针对性的推荐。其优势在于收集相对容易,在用户注册或项目编目时即可获取,但缺点是无法捕捉用户偏好和项目相关性随时间的变化,且收集和存储人口统计信息可能引发隐私问题,需要采用数据匿名化等技术来应对。
2.交互历史( Interaction History): 记录了用户基于系统的动态行为和偏好,包括过去的活动(如观看的电影、购买的物品等)以及与项目的交互细节(如点击、查看时长等),在与 LLMs 的交互中还涵盖了提示、响应和参与模式等内容。它能实时反映用户偏好,为实时个性化推荐提供有力支持,丰富的细节有助于深入理解用户行为。然而,其数据量通常较大且复杂,处理难度较高,并且过去的交互不一定能准确反映当前偏好,需要谨慎分析以确保其相关性。
3.用户撰写文本(User-Written Text): 涵盖用户生成的各种书面内容,如产品或服务的评论(包含评分和详细评论)、与对话系统或其他用户的对话、社交媒体帖子等,在 LLMs 中还包括用于少样本学习的人类书写示例。这些文本能深入洞察用户的情感、偏好和意见,可用于情感分析、改进对话代理等多种应用。但它具有非结构化的特点,需要先进的 NLP 技术进行有效分析,且用现有指标全面评估其个性化信息具有挑战性,同时用户生成内容可能存在噪声和质量差异,高质量标注成本高昂。
4. 成对人类偏好(Pair-Wise Human Preferences): 是用户明确的反馈,通过选择一组候选输出中的首选选项来表明其偏好,为训练模型紧密贴合个人用户需求提供了直接指导。与静态属性或交互历史相比,它能提供更具体和直接的反馈,有助于减少模型输出的模糊性,提高用户满意度和个性化效果。但目前在设计有效的对齐策略方面仍面临重大挑战,大多数现有工作主要关注与一般聚合的人类偏好对齐,而对多样化的个体视角关注不足。
3、个性化生成空间的形式化
对于给定的输入x,定义了所有可能生成的空间G(x),这个空间包含了语言模型在输入时可能生成的所有输出序列。例如,当输入一个关于 “科技产品推荐” 的提示时,可能包含各种各样的科技产品推荐内容,从不同品牌、不同类型的产品介绍到各种风格的推荐文案。
还定义了高概率生成空间Gp(x),这是在所有可能生成的空间中,根据模型概率分布,具有较高生成概率的子空间。在实际应用中,语言模型会根据其学到的语言知识和训练数据,对不同的输出序列赋予不同的概率,Gp(x)就是那些概率较高的输出所构成的空间。
进一步定义了用户特定生成空间Gu,p(x),这个空间是在高概率生成空间的基础上,结合用户的个性化信息后得到的更具针对性的生成空间。它比前面的空间更加聚焦于满足用户的特定需求和偏好,例如对于一个偏好性价比高的科技产品的用户,其用户特定生成空间中的推荐内容就会更倾向于这类产品。
4、个性化标准分类
1. 语气和风格维度
(1)风格匹配: 这部分强调在个性化LLMs输出时,写作风格要与用户偏好以及先前交互的风格保持一致。例如,如果用户在之前的交互中习惯使用正式、严谨的语言风格,那么个性化输出也应该遵循这种风格。这可能涉及词汇选择、句子结构等多个方面。比如,对于学术领域的用户,模型应该生成具有学术风格的内容,避免使用过于口语化或随意的表述。
(2)语气相符: 除了风格,语气也很关键。语气包括友好、严肃、幽默等多种类型。如果用户在对话中表现出喜欢幽默的语气,那么模型也应该以幽默的语气进行回应。通过使输出的语气与用户偏好一致,可以增强用户体验和对内容的接受度。例如,在一个娱乐聊天场景中,幽默的语气能够让用户更加享受对话过程。
2. 相关性维度
(1)内容相关性: 主要关注生成的内容与用户兴趣的相关性。这要求模型能够根据用户的历史交互、用户文档等信息,推断出用户感兴趣的主题,并生成与之相关的内容。例如,如果用户经常浏览科技新闻和产品评论,那么个性化输出应该更多地涉及科技领域的内容,如最新的科技产品发布、技术发展动态等。而且,内容不仅要涉及用户感兴趣的领域,还要针对用户的具体偏好进行定制。例如,对于一个对智能手机摄影功能特别感兴趣的用户,相关内容可以重点放在手机摄影技术的更新和比较上。
(2)上下文相关性: 强调在具体的交互情境下,生成的内容要与当前上下文相契合。例如,在一个多轮对话中,模型需要根据之前对话的内容和主题,合理地延续对话线索。如果前面的对话是关于智能手机的拍照功能,那么下一轮的回答应该继续围绕这个主题展开,而不是突然转到无关的话题,如体育赛事。这种上下文相关性对于保持对话的连贯性和用户的参与度非常重要。
3. 准确性维度
(1)事实准确性: 个性化输出必须确保所提供的信息是事实准确的。在生成内容涉及知识、新闻、产品细节等方面时,尤其要注意这一点。例如,当推荐一款产品时,产品的规格、性能等信息不能出现错误。否则,不仅会降低用户对内容的信任度,还可能导致用户对模型产生负面评价。
(2)用户数据准确性: 还需要保证使用的用户数据是准确的。这包括用户的偏好、属性等信息。如果错误地识别了用户的偏好,例如将一个对科幻小说不感兴趣的用户误认为是科幻爱好者,那么生成的内容就会与用户需求严重不符。通过确保这两个方面的准确性,可以提升个性化 LLMs 的质量和可靠性。
四、LLM的个性化粒度
1. 个体用户级别的个性化
(1)详细描述: 这是最精细的个性化粒度级别,完全聚焦于单个用户的独特特征和偏好。它会根据每个用户的历史交互记录(如过去的提问、回答、点击行为等)、用户文档(如个人笔记、评论等)以及用户属性(如年龄、性别、职业等)来定制语言模型的输出。例如,对于一个对摄影有浓厚兴趣的用户,模型会深入了解该用户对摄影的具体喜好,如喜欢风景摄影还是人像摄影,偏好传统相机还是数码相机等细节,然后为其生成专门针对这些喜好的内容,如个性化的摄影技巧分享、符合其偏好的相机设备推荐等。
(2)应用场景和优势: 这种个性化粒度在需要高度定制化服务的场景中非常有用。比如在个人知识管理助手或高级私人购物顾问等应用中,能够为用户提供最贴合其个人需求的信息,极大地提高用户满意度。它的优势在于能够精准地满足每个用户的需求,提供高度相关和个性化的体验。
(3)挑战: 然而,实现个体用户级别的个性化也面临一些挑战。一方面,需要收集和处理大量的用户数据,这涉及到数据存储、隐私保护等问题。另一方面,模型需要能够有效地利用这些复杂且多样化的数据来生成高度个性化的内容,这对模型的训练和优化能力是一个考验。
2. 群体用户级别的个性化
(1)详细描述: 在这个粒度级别,用户根据某些共同的特征或偏好被划分为不同的群体。这些特征可以是基于兴趣爱好(如摄影爱好者群体、体育迷群体)、人口统计学因素(如年龄组、性别群体)或行为模式(如经常购买高端电子产品的群体)等进行划分。对于每个群体,语言模型会生成适合该群体共性的内容。例如,针对摄影爱好者群体,模型会生成关于摄影基础知识、热门摄影地点推荐等普遍受该群体欢迎的内容。
(2)应用场景和优势: 群体用户级别的个性化适用于当用户需求具有一定的共性,且通过群体划分可以更高效地提供个性化服务的场景。比如在社交媒体平台的内容推荐或大规模在线课程的设计中,通过针对不同群体的兴趣点进行内容推送,可以覆盖更广泛的用户群体,并且可以利用群体的共性来简化模型的训练和内容生成过程。其优势在于能够在一定程度上平衡个性化和效率,通过为一组用户提供相似的个性化服务,减少了数据处理和模型训练的复杂性。
(3)挑战: 不过,群体划分的准确性是一个关键挑战。如果群体划分不合理,可能会导致部分用户收到不太相关的内容。此外,随着用户需求的多样化和动态变化,如何及时更新群体划分和内容生成策略也是需要解决的问题。
3. 内容单元级别的个性化
(1)详细描述: 内容单元级别的个性化侧重于对具体的内容单元(如单个文本段落、产品推荐、新闻文章等)进行个性化。它会考虑内容单元本身的特点(如主题、风格等)以及用户对这类内容的偏好,来对内容进行调整。例如,在新闻推荐中,对于一篇科技新闻文章,会根据用户对科技新闻的偏好(如对人工智能新闻更感兴趣,或者喜欢深度分析型的科技文章)来调整文章的呈现方式,如突出人工智能相关内容或者添加深度分析的链接。
(2)应用场景和优势: 这种个性化粒度在内容分发和展示领域应用广泛。例如在新闻媒体网站、电商产品展示页面等场景中,可以根据用户的即时兴趣和偏好来优化单个内容单元的呈现,提高内容的吸引力和用户的点击率。它的优势在于能够灵活地对现有内容进行个性化调整,不需要对整个语言模型进行大规模的重新训练,并且可以快速适应用户的即时兴趣变化。
(3)挑战: 内容单元级别的个性化面临的挑战主要在于如何准确地识别内容单元的特征以及用户对这些特征的偏好。同时,由于内容单元数量可能庞大,如何高效地实现个性化调整也是一个问题。
五、LLM个性化技术分类
1、基于检索增强生成(RAG)的个性化
1. 原理: 将用户信息作为外部知识库,通过向量编码,利用嵌入空间相似性搜索检索相关信息用于下游个性化任务。在个性化任务中,由于大用户配置文件常因 LLMs 上下文限制不能完全融入提示,所以 RAG 被广泛应用。
2. 分类:
(1)稀疏检索(Sparse Retrieval): 采用基于频率的向量对查询和用户信息进行编码,如 TF-IDF 和 BM25。TF-IDF 根据词在文档集合中的频率计算文档得分,BM25 则在 TF-IDF 基础上结合文档长度归一化和词频饱和控制。因其简单有效,常作为检索式个性化方法的基线,但在捕捉语义关系方面存在局限。
(2)密集检索(Dense Retrieval): 利用深度神经网络生成查询和文档的连续嵌入,如利用预训练的 LLM 编码器或训练专门的检索嵌入。像 Dense Passage Retrieval(DPR)、Contriever 等方法通过不同策略训练,在个性化任务中能检索更相关用户信息,但训练成本较高,且在构建训练数据、设计损失函数和结合 LLMs 训练等方面存在挑战。
2、基于提示(Prompting)的个性化
1. 原理: 将用户信息作为 LLMs 提示的上下文,使模型能直接执行下游个性化任务或提取更相关信息,提升系统性能。
2. 分类
(1)上下文提示(Contextual Prompting): 直接将过去用户信息纳入提示,让 LLMs 预测下游任务中的用户行为。如在用户评分预测任务中直接加入用户历史评分和候选项目特征,但面临可扩展性和性能提升有限的问题。
(2)基于角色的提示(Persona-based Prompting): 在提示中引入特定角色,如人口统计信息等,让 LLMs 扮演该角色以提升性能。但可能导致 “角色幻觉”、引入偏差等问题。
(3)配置文件增强提示(Profile-Augmented Prompting): 针对用户配置文件数据库的问题,利用 LLMs 内部知识丰富原始用户历史信息,提升下游个性化任务效果。
(4)提示优化(Prompt Refinement): 训练模型优化手动设计的提示,增强个性化能力,如通过结合监督学习和强化学习优化提示改写。
3、基于表示学习(Representation Learning)的个性化
1. 原理: 旨在学习能准确捕捉用户行为的潜在表示,应用于个性化响应生成、推荐等任务。
2. 分类
(1)全参数微调(Full-Parameter Fine-tuning): 通过在特定数据集上进一步训练更新 LLM 的所有参数,使其适应下游个性化任务,在很多任务中能取得较好效果,但需考虑参数访问和成本问题。
(2)参数高效微调(Parameter-Efficient Fine-tuning,PEFT): 仅更新少量额外参数或预训练参数的子集,如通过 LoRa 等方法封装用户特定行为模式和偏好,提高个性化效率。
(3)嵌入学习(Embedding Learning): 学习能代表输入文本和用户信息的嵌入向量,将其融入模型以生成个性化响应,如通过条件变分推断等方法捕捉用户偏好和行为。
4、基于人类反馈强化学习(RLHF)的个性化
1. 原理: 在 LLMs 的学习过程中,除了一般的与人类偏好对齐,也可用于个性化,即根据个体用户的期望和要求进行对齐。通过人类对模型输出的偏好反馈,学习优化策略。
2. 方法: 一些工作将 LLMs 与个性化人类偏好对齐,如将其视为多目标强化学习任务,分解不同用户偏好维度并独立优化;还有提出 Personalized-RLHF(P - RLHF)框架,联合学习用户特定模型与语言或奖励模型;也有通过表示学习和聚类处理异质人类偏好,或利用数据集增强对齐效果等方法,旨在使 LLMs 更好地适应不同用户的个性化需求。
六、个性化LLM评估指标的分类
对于任意数据集 D,存在一个评估指标子集 ψ(D)⊆Ψ,其中 Ψ 是所有指标的空间,而 ψ(D) 是适用于该数据集的指标子集。在评估个性化 LLM 对下游应用(如为特定用户生成电子邮件或摘要)的性能时,需选用恰当的评估指标。个性化评估需考虑诸多因素,如生成文本的写作风格、语气、相关性、准确性等,这些因素在不同应用场景下的重要性各异。
1. 内在评估(Intrinsic Evaluation)
(1)定义与指标: 内在评估指标(如 BLEU、ROUGE - 1、ROUGE - L、METEOR、BERTScore、Hits@K 等)主要用于在有真实文本数据时评估生成内容的质量。例如,BLEU 常用于文本生成任务评估,ROUGE - 1 和 ROUGE - L 适用于摘要评估,METEOR 专注于字符串对齐,BERTScore 衡量 BERT 模型生成的上下文嵌入的相似性,Hits@K 计算测试项目在 top - k 返回答案中的比例。在 LaMP 和 LongLaMP 等基准测试中,这些指标被广泛应用于评估个性化新闻标题生成、学术标题生成、电子邮件主题生成、长文本生成等任务。
(2)LLMs 作为评估者的探讨: 虽然 LLMs 越来越多地被用作评估器以减少人力依赖,但目前其可靠性仍存疑。例如,MT - bench 和 Chatbot Arena 虽尝试用强 LLMs 作为评委,但研究表明 LLMs 在评估性能上存在高方差,尚未能完全取代人类评委。不过,也有一些方法如 EvalGen 通过结合用户偏好,让用户对 LLM 生成的提示和代码进行评分,迭代优化评估标准,以辅助评估过程,但人类评价在确保个性化输出符合用户期望方面仍不可或缺。
2. 外在评估(Extrinsic Evaluation)
(1)推荐任务评估: 外在评估指标通过下游任务的有效性来评估生成内容。在推荐任务中,常用指标包括 Recall、Precision 和 Normalized Discounted Cumulative Gain(NDCG)等。对于 top k 推荐,Recall 衡量从参考集中检索到的相关项目的百分比,Precision 表示推荐中正确检索项目的百分比,NDCG 则考虑推荐项目排名与真实排名的匹配程度。此外,对于评分预测等任务,还会用到均方误差(MSE)、均方根误差(RMSE)和平均绝对误差(MAE)等指标。
(2)分类任务评估: 在分类任务中,个性化 LLMs 将输入文本分类到多个候选类之一,如在医疗领域将患者与合适的临床试验匹配,或在电影分类中根据电影简介进行分类。常用的评估指标包括 Recall、Precision、Accuracy 和 F1 Score 等,这些指标可有效衡量分类的质量和准确性。不同的个性化任务可能需要特定的任务指标进行评估,以全面反映模型在该任务中的性能表现。
七、个性化数据集的分类
根据数据集在个性化 LLMs 应用中的作用,可分为两类。一类是能直接评估通过个性化 LLM 方法生成文本的数据集,另一类是用于间接评估下游应用中生成文本的数据集,其重点在于展示利用该文本能否提升其他模型(如推荐模型、分类模型等)的性能。
1. 含真实文本的个性化数据集(Personalized Datasets with Ground - Truth Text)
(1)特点与类别: 这类数据集相对稀少但极为关键,涵盖用户实际撰写的文本,可直接用于评估个性化文本生成方法。在分类上主要包括短文本生成和长文本生成数据集,如长文本中的用户评论及相关信息,短文本中的新闻标题、电子邮件标题等。
(2)应用与价值: 这些数据集能用于直接评估生成文本,同时也可为基于用户特定文本的 LLMs 训练或微调提供数据支持,有助于开发个性化 LLM 技术,在衡量模型生成与用户真实需求契合度方面发挥关键作用。
2. 不含真实文本的个性化数据集(Personalized Datasets without Ground - Truth Text)
(1)特点与应用: 此类数据集更为常见,不依赖用户撰写的真实文本,而是利用用户属性和其他交互数据生成个性化文本,并通过下游应用间接评估。常见于推荐、分类、对话和问答等任务,能借助常见数据集开展不同的个性化任务评估。
(2)局限性与补充: 其局限性在于仅能证明文本对下游应用有用,无法确保对用户有实际意义。此外,还强调了一些虽非专为个性化任务设计,但包含丰富用户特定信息和用户生成文本的数据集,如 PRISM Alignment Dataset 和 Empathic Conversations dataset 等,这些数据集在个性化问答、对话生成等语言模型任务中具有重要价值,可补充和拓展个性化 LLMs 的应用场景与研究范围。
八、个性化LLM应用
1. 个性化 AI 助手
(1)教育领域: 个性化 LLMs 为学生和教师提供个性化教育体验。例如,EduChat 通过在教育语料上预训练,并利用工具使用和检索模块进行指令调整,为教育应用定制语言模型,支持苏格拉底式教学、情感辅导和作文评估等任务。然而,其在应用中面临版权、偏见、过度依赖、隐私安全、用户界面设计以及公平访问等诸多挑战。
(2)医疗领域: LLMs 在医疗任务中的能力促使其融入个性化健康辅助。如 HeLM 利用个体特定的多模态健康数据进行个性化疾病风险预测,openCHA 集成外部数据源等实现个性化医疗响应,MaLP 结合特定机制提高个性化医疗回答能力,还有基于 Health - LLM 的管道利用 RAG 提供疾病预测和健康建议等。
(3)其他领域: 在金融领域,个性化 LLMs 可提供超出一般投资建议的定制化金融咨询,如 FinGPT 考虑用户风险偏好等提供建议,但面临数值推理、可视化、多语言支持和用户背景评估等挑战,未来可应用于财富管理、风险评估、税务优化等方面。在法律领域,可协助法官、律师和客户,如 DISC - LawLLM 利用法律三段论提示策略和检索模块提供法律服务,SimuCourt 评估 AI 司法能力并支持个性化交互,但在不同法律角色应用中仍有改进空间。在编码领域,虽已有代码生成助手,但个性化方面常被忽视,而像 MPCODER 等方法可生成符合用户编码风格的代码,个性化在编码风格适配、调试辅助、代码规范执行和团队协作等方面具有重要意义。
2. 推荐系统:
个性化 LLMs 广泛应用于推荐任务,包括多种推荐类型,旨在提升用户在电商等推荐领域的体验。其集成到推荐系统的方式主要有三种:增强传统推荐系统的嵌入、将生成输出作为特征以及直接作为推荐器。如 PALR、Chat - Rec、InstructRec 和 GeneRec 等方法利用个性化 LLMs 改进推荐效果,但在大规模部署中存在隐私、成本和延迟等问题。
3. 搜索领域:
随着 LLMs 能力提升,其被纳入搜索引擎以提供更好的搜索体验,个性化可进一步优化结果。例如,Cognitive Personalized Search(CoPS)结合认知记忆机制处理用户交互,Collaborative STORM 通过多轮搜索和交互历史实现个性化。但也存在问题,如用户在使用 LLM 驱动的搜索时可能出现信息查询偏差和意见极化现象,凸显了平衡个性化与信息多样性获取的重要性。
九、问题与挑战
1. 基准和指标问题: 当前缺乏能有效评估 LLMs 个性化输出的基准和全面的定量指标。现有的个性化基准大多源于推荐系统,侧重于最终预测,忽视了输出生成的中间过程,难以评估输出的真实个性化程度。例如 LaMP 虽针对个性化输出评估,但范围局限于特定文本任务,缺乏现实场景的复杂性。同时,现有指标多依赖下游任务和标签质量,无法全面捕捉个性化的多维度特性。虽然利用 LLMs 作为评估者有一定潜力,但相关框架尚不成熟,存在不稳定和潜在偏差等问题。
2. 冷启动问题: 在推荐系统中常见的冷启动问题在个性化 LLMs 中依然严峻。尽管 LLMs 有少样本学习能力,但在适应稀疏用户数据进行个性化微调时仍面临挑战。许多下游数据集预处理时会过滤掉交互历史少的数据,导致个性化 LLMs 在低资源场景下的潜力未被充分挖掘。目前虽有一些方法如 Persona - DB 尝试解决,但仍需进一步研究,如基于 Persona - DB 范式改进或利用合成数据生成技术,但面临数据多样性和质量保证等问题。
3. 刻板印象和偏见问题: 个性化过程可能加剧 LLMs 中的刻板印象和偏见。由于训练数据可能包含社会偏见,个性化输出可能会强化这些偏见,且个性化系统的反馈循环会加深这种影响。当前虽有一些缓解 LLMs 偏见的研究,但针对个性化与偏见交叉问题的研究较少。例如 Context Steering 等方法在一定程度上尝试解决,但完全消除个性化偏见仍是挑战,未来需在个性化过程中加强偏见检测、融入公平约束并确保多样化输出。
4. 隐私问题: 在 LLM 个性化应用中,隐私保护至关重要且与个性化目标常冲突。当前 LLMs 易泄露隐私,即使采用常见防护措施仍可能通过文本推断出个人属性,且面临对抗攻击风险。目前针对个性化与隐私交叉领域的研究有限,需明确定义个性化与隐私边界,并设计专门模块防止各阶段的隐私泄露,实现个性化与隐私保护的平衡。
5. 多模态问题: 个性化多模态模型面临复杂挑战,因其需处理多种数据类型并融合用户偏好。在多模态个性化中,关键是有效整合不同模态的用户数据,但当前存在用户数据融合、计算资源需求、模态同步和平衡个性化等多方面问题。尽管已有一些研究如 Unified Multimodal Personalization 等进行探索,但仍需进一步突破以实现高效的多模态个性化应用。
十、如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】