技术干货 | PACMOO:基于帕累托最优的公平性约束协同过滤算法

MindSpore作为一个开源的全场景AI框架,为开发者带来端边云全场景协同、极致性能,极简开发、安全可信的体验,2020.3.28开源来得到数六十万以上的下载量,走入100+Top高校教学,已通过HMS在4000+App上商用,拥有数量众多的开发者,在AI计算中心,智能制造、云、无线、数通、能源、消费者1+8+N等端边云全场景逐步广泛应用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。基于MindSpore的AI顶会论文越来越多,我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟MindSpore合作,一起推动原创AI研究,MindSpore社区会持续支撑好AI创新和AI应用,本文是MindSpore AI顶会论文第六篇,我们选择了来自中国科学院大学计算技术研究所智能信息处理重点实验室许教授在ACM MM2021的一篇论文进行解读,感谢中科院计算所许教授团队投稿。

论文整体目录:

1、MindSpore AI论文解读1:自此告别互信息:用于跨模态行人重识别的变分蒸馏技术

2、MindSpore AI论文解读2:EPRNet 应用于实时街景分割的高效金字塔表征网络

3、MindSpore AI论文解读3:文本语义哈希在大规模信息检索系统的应用

4、MindSpore AI论文解读4:AECRNet:基于对比学习的紧凑图像去雾方法

5、MindSpore AI论文解读5:CycleCol:基于循环卷积神经网络对真实单色-彩色摄像系统着色

 01 

研究背景

研究背景:协同过滤推荐算法基于历史数据学习用户对物品的偏好。由于收集到的历史数据集不可避免地存在不均衡现象,传统优化方法对每个用户-物品交互的损失进行单独求和,从而导致交互数量少的用户训练不充分,模型倾向于对处于劣势的用户群体产生不公平的推荐效果。本论文从损失函数的重形式化入手,借鉴多目标优化思想,旨在从优化角度缓解推荐算法中的样本不平衡问题。

团队介绍:第一作者郝前秀,是中科院计算技术研究所智能信息处理重点实验室研三学生,导师是许倩倩副研究员(获:国家自然科学基金委优秀青年基金,吴文俊人工智能自然科学一等奖,CSIG石青云女科学家奖等)。团队研究领域为数据挖掘和机器学习,主要关注众包计算、机器学习算法、推荐系统、知识图谱等,相关成果已发表在TPAMI、IJCV、TIP、TKDE、TMM、ICML、NIPS、CVPR、ECCV、AAAI、ACM Multimedia等相关领域主流国际期刊与会议上。

 02 

论文主要内容简介

为缓解推荐算法中的样本不平衡问题,我们提出将不同组用户的训练损失单独作为一个优化目标。由于不同组用户的推荐性能被同等视作一个优化目标,从而可减小不均衡的亚组样本频率对梯度的影响。借鉴多目标领域的有关概念,模型旨在求解多个目标的帕累托最优解。帕累托最优解的定义为:若不存在这样的解,在所有目标上均优于当前解,则当前解被称为一个帕累托最优解。从定义可以看出,可能存在多个解均满足帕累托最优性。更进一步,为了使得模型取得一个更加均衡的帕累托最优解,我们提出了一个公平性约束,以限制多目标优化的搜索空间。从而将问题形式化为一个受限多目标优化问题:

其中

分别组的损失函数,是所加的公平性限制约束。

为了求解该受限制多目标优化框架,我们提出了一个高效的受限制多目标优化算法。算法在第 步更新之前,首先求解一个子问题a),动态地为每个目标计算出相应的权重。

为了求解该受限多目标优化框架,我们提出了一个高效的受限多目标优化求解算法。算法在

更新之前,首先求解一个子问题a),动态地为每个目标计算出相应的权重

  

 

子问题a)

其次,考虑所加的公平性约束,通过拉格朗日乘子法,求解如下min-max子问题b)。

子问题b)

其中的min问题根据所提出的公平性约束对搜索空间加以限制,使得模型倾向于取得均衡的帕累托稳定点。对于

,通过公平性约束对梯度进行调整后,模型的更新方向为:

其中,

对于max问题,我们采用投影梯度上升法更新

。由于公平性不是本文的主要关注点,文中仅设计了一个公平性约束:约束不同组的损失差异不要太大,

其中,

,限制不同组损失的差异阈值。

03 

代码链接

论文链接:https://github.com/qianxiuhao1017/Pareto_constrained_MOO/blob/main/Pareto_cpnstrained_MOO.pdf

MindSpore代码链接:https://gitee.com/mindspore/contrib/tree/master/papers/PACMOO

会议名称:ACM MM 2021

 04 

算法框架技术要点

05 

实验结果

表1:仿真数据集上的总体性能比较

图1: 仿真数据集上不同目标的性能图

表 2: Netflix数据集上的总体性能比较

图2: Netflix数据集上不同目标的性能图

我们在仿真数据集和真实数据集Netflix上均进行了实验。如表1、表2所示,所提方法与对比方法在总体性能上相当。更进一步,由图1、图2所示,所提方法在弱势组(图1的group 1 和图2的group 4)上得到了明显的提升。从而证明所提出的方法能够在不损害总体性能的基础上,提升劣势用户群体的推荐性能,实现了总体性能与公平性之间的良好权衡。

 06 

MindSpore代码实现

如算法框架技术要点所述。MindSpore实现链接:https://gitee.com/mindspore/contrib/tree/master/papers/PACMOO

 07 

总结与展望

本文从损失函数的重形式化以及优化角度考虑样本不平衡问题。传统的总体目标损失由所有用户-物品对的损失等权相加组成,易受样本频率影响。本文将不同用户的损失进行分组,并同等地视为一个优化目标。借鉴多目标优化的思想,转而同时优化多个目标以期取得良好的帕累托最优解。为了进一步限制模型的搜索空间,我们加入了公平性约束以限制多组损失之间的差异。为了对这一受限多目标优化问题进行求解,我们提出了一个基于梯度的高效求解算法。当前多目标优化算法的不足之处在于仅能取得一个帕累托稳定点。未来将进一步探索多目标优化算法,从而能够高效获得多个帕累托最优解,且各个解具有可解释的性质,以期指导用户个性化地选择符合某个条件的帕累托解。 

MindSpore官方资料

官方QQ群 : 486831414

官网:https://www.mindspore.cn/

Gitee : https : //gitee.com/mindspore/mindspore

GitHub : https://github.com/mindspore-ai/mindspore

论坛:https://bbs.huaweicloud.com/forum/forum-1076-1.html 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值