本文是LLM系列文章,针对《PMG : Personalized Multimodal Generation with Large Language
Models》的翻译。
摘要
大型语言模型(LLMs)的出现彻底改变了文本理解和生成的能力。多模态生成引起了工业界和学术界的极大关注,但个性化生成方面的工作很少,个性化生成在推荐系统等领域有着重要的应用。本文提出了使用LLM进行个性化多模态生成的第一种方法,展示了它的应用,并通过对两个数据集的广泛实验研究验证了它的性能。所提出的方法,即个性化多模态生成(简称PMG),首先将用户行为(例如,推荐系统中的点击或与虚拟助理的对话)转换为自然语言,以促进LLM理解并提取用户偏好描述。然后,这些用户偏好被输入到生成器中,例如多模态LLM或扩散模型,以生成个性化内容。为了全面准确地捕捉用户偏好,我们建议让LLM输出显式关键字和隐式嵌入的组合来表示用户偏好。然后,使用关键字和嵌入的组合作为提示来调节生成器。我们优化了准确性和偏好得分的加权和,以便生成的内容在它们之间保持良好的平衡。与没有个性化的基线方法相比,PMG在保持生成准确性的同时,在LPIPS方面对个性化有了高达8%的显著改善。