AI生成内容也能懂你！清华&华为联合专利揭秘个性化内容生成新纪元（申请号：202410333535.4）-CSDN博客

本文链接：https://blog.csdn.net/mobingyu/article/details/145832428

“这项专利技术让AI不仅能‘生成’内容，更能‘理解’用户的深层需求，真正实现个性化与场景化的完美融合！”
——由清华大学深圳国际研究生院与华为技术有限公司联合申请的发明专利（申请号：202410333535.4），首次提出了一种基于混合表征的多模态个性化生成方法，解决了行业个性化内容生成效果差、可控性低的痛点。

一、专利技术深度解析

1. 技术背景：破解个性化与多模态的“双重难题”

传统AI生成技术面临两大困境：

个性化不足：仅依赖显式标签（如用户点击记录）提取偏好，难以捕捉隐含需求（如用户未明确表达的审美倾向）。
多模态生成不可控：生成内容与场景匹配度低，例如电商商品封面需同时满足视觉吸引力和产品卖点，但现有模型往往顾此失彼。
本发明通过混合表征用户偏好与动态权重调节机制，首次实现了两者的协同优化。

2. 核心创新点：显式+隐式，双管齐下表征用户

显式关键词生成：通过大语言模型（LLM）对用户行为（点击、对话等）生成结构化关键词（如“颜色偏好：莫兰迪色系”）。
隐式向量学习：利用P-tuning V2微调技术，从多模态交互数据（如图片、语音）中提取用户潜在偏好向量，弥补显式关键词的模糊性。
动态加权策略：结合场景关键词与用户偏好，通过余弦相似度计算个性化得分（dp）与场景准确度得分（dt），按超参数α加权优化生成结果（公式见专利第0038条）。

3. 技术实现：三步走打造智能生成引擎

行为数据转化：将多模态用户行为（如商品图片、对话文本）输入LLM，生成自然语言摘要（公式见第0013-0016条）。
偏好与场景提取：
- 用户偏好：通过属性列表（如“服装风格”“音乐类型”）构建提示词，引导LLM生成关键词集合（公式见第0018-0020条）。
- 场景特征：类似流程提取场景关键词（如“节日促销”“运动主题”）。
多模态生成与优化：
- 隐式向量输入多模态联合预训练模型（如CLIP），结合文本编码器输出的显式关键词向量，生成加权结果（公式见第0033条）。
- 通过多个权重集合生成候选内容，选择综合得分最高的输出（公式见第0039条）。