论文 | 翻译 ——Improving performances of Top-N recommendations with co-clustering method（2020：协同过滤RS）

最新推荐文章于 2024-08-21 00:15:00 发布

博士僧小星

最新推荐文章于 2024-08-21 00:15:00 发布

阅读量399

点赞数

分类专栏： # 论文解读

本文链接：https://blog.csdn.net/admin_maxin/article/details/104836118

版权

论文解读专栏收录该内容

38 篇文章 0 订阅

订阅专栏

0.专有词汇

interation data：交互数据（评分）bipartite network：二部网络（二部图）

demograhic information：人口统计信息

probabilistic matrix factorization：概率矩阵分解

unipartite form：单部形式 transaction data：交易数据（1：买了，0：没买）

absolute coordinate distance：绝对坐标距离

Bayesian personalized ranking(BPR)：贝叶斯个性化排序（矩阵分解的变种）

adjacent matrix：邻接矩阵 benchmark methods:基准方法

0.摘要

1.Introduction

【论述过程】

①信息冗余宏观背景 → ②推荐算法的数据分类 → ③推荐算法分类 → ④落脚到CF（人口统计信息+商品内容信息难获取，易失真） → ⑤CF问题：忽略了用户仅仅对特定的商品表示出兴趣 → ⑥聚类-CF问题：需额外信息+考虑不全面 → ⑦提出了一种新的基于用户-商品检测的推荐方法 → ⑧剩余文章的内容安排

【一种新的基于用户-商品社区检测的推荐方法（UICDR）：流程】

①用户和商品的共同聚类

②借助传统近邻协同过滤推荐算法进行推荐

【创新点】

①使用加权二部图来表示用户-项目交互行为，并修改了文章先前的研究工作

②提出了一种二部模块化的单部形式和一种新的优化方法

③提供了一种缓解冷启动问题的新思路

2.Related works

【论述过程】

①交互数据说明（评分矩阵/购买行为矩阵） → ②协同过滤 → ③基于聚类的协同过滤和冷启动问题

2.1. Collaborative filtering

【论述过程】

①基于商品的协同过滤推荐算法介绍（基于近邻的算法中任选的一种）

②矩阵分解方法介绍（基于模型的算法中任选的一种）

2.1.1.Item-based collaborative filtering

【论述过程】

①相似度计算公式分类 → ②排除“距离相似度”（愿意：维度影响精度） → ③分别给出基于“评分矩阵”和“交易矩阵”的评分预测公式

2.1.2.Matrix factorization

【论述过程】

①矩阵分解的基本形式 → ②矩阵分解变种算法：BPR、Slim、autoencoder和EigenRec

2.2. Cluster-based collaborative filtering and cold start problem

【论述过程】

①聚类-推荐算法问题：（1）仅采用单一视角聚类（用户聚类或商品聚类），忽略了另一个聚类视角的信息；（2）最佳聚类数需要人为给定

②冷启动解决办法：（1）使用外部信息；（2）使用联合聚类结果替代缺失信息；（3）深度学习方法：基于内容

③本文使用一种“共同聚类的新方法”

3.A new method to co-cluster users and items

【论述过程】:提出了一种用户和项的协同聚类方法

二部图（二分图）介绍
“二部模块”和“Bi-Louvain社区发现算法”介绍
优化二部模块的新方法

【注明】

过程过于繁琐，非个人专业领域，简单来说就是对图聚类算法进行改进，对二部图进行聚类

4.User-item community detection based recommendation

【论述过程】

指出：文章提出的UICDR推荐算法是（Section 3中提出的新联合聚类算法+协同过滤算法：混合算法）
混合方法细节描述
混合方法的复杂度分析

4.1.Details of hybrid method

【方法流程】

输入用户商品评分矩阵
对数据进行预处理并划分为：训练数据+测试数据
基于训练数据构造用户-商品二部图，并基于Section 3中改进算法进行联合聚类
针对每一个聚类簇构建推荐模型
确定目标用户近邻，并对测试集中的每个用户进行Top-N推荐

4.1.1.Preprocess data

【数据预处理流程】

数据过滤：设定阙值，对评分较少的用户或商品进行过滤
数据分割：每个用户80%的评分作为训练集，20%评分作为测试集

4.1.2.Co-cluster users and items

【联合聚类流程】

构建用户-商品二部图（基于python中的NetworkX库）
基于原始的Louvain社区发现算法提出新的联合聚类算法
对商品和用户进行社区分割

4.1.3.Train model in each cluster

【聚类簇中模型构建流程】

在每个聚类簇中构建传统近邻协同过滤推荐算法模型
比较“基于用户的协同过滤推荐算法”和“基于商品的协同过滤推荐算法”模型的性能

4.1.4.Make recommendations

【产生推荐流程】

确定待推荐用户u所在聚类簇Cu
基于4.1.3中模型确定Cu中用户u的邻域
基于商品预测评分生成推荐列表

4.2.Complexity analysis

【论述过程】

指明分析范围：训练阶段
时间复杂度来源：二部社区划分+协同过滤推荐模型

5.Experiments and evaluations

本部分中文章对数据集、对照实验和实验结果对比参数进行了相关说明。

数据集：文章实验数据集共包括4部分（Movielen-100k、Movielen-10m、CE-Data和E-Data）。CE-Data是作者采集自我国大型电商平台且经过过滤的真实数据（猜测是淘宝），E-Data则是在CE-Data基础之上进一步抽取的流行商品类目对应的数据集。
基准方法(对照算法)：文章共选择了8中对照算法，其中包括文章所提算法，即UICDR、I-Cosine、I-Pearson、U-Cosine、U-Pearson、POP、SVD和BPR。
性能评估方法：准确性(precision)、归一化折现累积增益(NDCG)、