一、项目数据集全景解析
在 “基于 LLM 的多模态新范式电商推荐系统” 中,我们整合了三大核心数据集,覆盖社交娱乐、图像交互和传统电商场景:
1.MicroLens 数据集(西湖大学)
包含微视频标题(文本)、封面图(图像)、音频和用户交互日志,子集 MicroLens-100K 含 10 万用户、1.9 万商品、71 万交互记录,稀疏度 99.96%。
特点:多模态数据丰富,但用户 - 商品交互高度稀疏,需重点处理冷启动商品。
2.PixelRec 数据集
以图像为中心,含 2 亿次图像交互、3000 万用户、40 万张封面图,适合验证视觉模态对推荐的影响。
3.Amazon 数据集
选取婴儿、运动、电子产品等四大类目,以商品描述(文本)和用户购买记录为主,稀疏度均超 99.8%。
数据概览表:
二、对比分析报告
- MicroLens数据集(西湖大学)
核心特征
多模态完整性:四维数据(标题文本/封面图/音频/交互日志)形成完整用户-内容交互闭环
极端稀疏性:用户平均交互仅7.1次,99.96%用户-商品无交互记录
冷启动集中:超83%商品交互次数<10,存在典型长尾分布
优势领域
▶ 多模态融合研究:封面图美学特征(通过ResNet提取视觉特征)与音频情感特征(Mel频谱分析)的协同作用验证
▶ 冷启动解决方案测试:适合对比跨模态迁移学习(如用封面图信息补全商品表征)与传统矩阵补全方法效果
▶ 隐式反馈建模:通过用户滑动时长(0.5-6秒级)构建细粒度兴趣预测模型
应用局限
▌ 数据噪声显著:短视频封面图存在标题党现象(图文相关性仅68.3%)
▌ 行为模式单一:缺乏购买转化数据,仅适合CTR预估类研究
▌ 设备特征干扰:安卓/iOS用户交互模式存在系统性差异(需做设备校准)
- PixelRec数据集
核心特征
视觉主导性:40万张封面图构成视觉特征库,含专业设计图占比37%
交互深度分层:包含曝光/点击/收藏/分享四级行为(权重可配置)
时空关联性:记录用户地理位置(城市级)与访问时段(精确到小时)
优势领域
▶ 视觉推荐验证:封面图色彩构成(HSV直方图分析)对点击率的影响归因
▶ 时空特征建模:构建"工作日午间→极简风格偏好"等时空-审美关联规则
▶ 图像增强技术:测试StyleTransfer等视觉优化手段对转化率的提升效果
应用局限
▌ 文本信息缺失:商品标题平均仅2.3个关键词,限制多模态研究
▌ 数据分布偏斜:头部1%商品占据63%交互量,需做下采样处理
▌ 隐私限制:用户画像维度有限(缺失年龄/性别等基础属性)
- Amazon数据集
核心特征
文本强关联性:商品描述平均长度487词(含技术参数表格)
购买链完整性:涵盖搜索→比价→加购→购买全流程行为
类目特性分化:运动类目复购周期短(平均23天),电子类目决策成本高
优势领域
▶ 知识增强推荐:利用商品描述构建领域知识图谱(如婴儿用品安全标准关联)
▶ 长期兴趣建模:通过跨类目购买序列(运动鞋→护具)挖掘用户生活方式迁移
▶ 解释性研究:基于商品参数对比数据验证可解释推荐模型的有效性
应用局限
▌ 模态单一性:缺乏图像/视频等富媒体内容,限制多模态算法验证
▌ 数据时效性:最新数据截止2022年,存在消费习惯迁移风险
▌ 场景局限性:未覆盖直播电商等新兴交互模式
三、分析选择
考虑到数据集大小,以及对于我们后面多模态推荐模型的适配程度,我们优先选用Amazon 商品数据集,而对于这个数据集而言:
共有多个种类,其中我们参考了两篇论文:
Multi-Modal Hypergraph Enhanced LLM Learning for Recommendation
BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation
最终选择了以下四个数据集: