2020年推荐系统工程师炼丹手册RecSys版

最新推荐文章于 2023-05-18 16:48:01 发布

炼丹笔记

最新推荐文章于 2023-05-18 16:48:01 发布

阅读量776

点赞数

分类专栏：炼丹笔记文章标签：算法大数据编程语言 python 计算机视觉

本文链接：https://blog.csdn.net/m0_52122378/article/details/110383686

版权

炼丹笔记专栏收录该内容

102 篇文章 26 订阅

订阅专栏

作者：一元  
公众号：炼丹笔记

上卷内容: 2020年推荐系统工程师炼丹手册第二册上卷

Learning to Collaborate in Multi-Module Recommendation via Multi-Agent Reinforcement Learning without Communication

随着在线电子商务平台的兴起，越来越多的顾客喜欢在网上购物。为了销售更多的产品，在线平台引入各种模块，推荐具有不同属性的商品，比如大幅折扣。网页通常由不同的独立模块组成。这些模块的排序策略由不同的团队决定，不需要合作就可以单独优化，这可能会导致模块之间的竞争。因此，整个页面的全局策略可能是次优的。在本文中，我们提出了一种新的多智能体协同强化学习方法。我们的贡献是三倍的。首先，受博弈论中的相关均衡解概念的启发，我们设计了一个信号网络，通过为不同模块生成信号（向量）来促进各模块之间的协作。其次，提出了一种熵正则化的信号网络模型，以协调智能体对最优全局策略的探索。此外，基于真实电子商务数据的实验表明，我们的算法在性能上优于基线。

2. Making Neural Networks Interpretable with Attribution: Application to Implicit Signals Prediction

解释建议可以让用户了解推荐的项目是否与他们的需求相关，并且已经证明可以增加他们对系统的信任。更一般地说，如果设计可解释的机器学习模型是检查决策过程的健全性和鲁棒性并提高其效率的关键，那么对于复杂的体系结构，尤其是通常被认为是“黑匣子”的深层神经网络来说，这仍然是一个挑战。在这篇文章中，我们提出了一个新的可解释的深层神经网络的公式。与流行的post-hoc方法不同，我们的方法可以通过设计进行解释。使用掩蔽权值，隐藏的特征可以被深入地归因，分成几个输入受限的子网络，并作为一个增强的专家混合训练。在合成数据和实际推荐任务上的实验结果表明，我们的方法能够在提供信息性的归因解释的同时，建立与不可解释的对应物接近的预测性能的模型。

3. MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Auction Systems

在以拍卖为基础的系统中，如二手车交易中心和在线拍卖网站，用户通常对物品进行竞价，然后这些物品被卖给最高出价者。在这些设置中，每个项目都是唯一的，并且只能销售一次，这意味着用户的购买历史记录将是唯一的，并且不会存在共同的项目。另一方面，物品将不会有任何历史销售。这种极端的设置对当前依赖于历史用户项交互的推荐系统模型提出了重大挑战。虽然这些模型中的一些并不完全适用，例如矩阵分解模型、邻域模型，甚至是最流行的朴素模型，但其余的模型只需要依赖于项目的属性。在本文中，我们提出了一个简单的多关系推荐模型MultiRec，它可以无缝地利用用户和物品属性以及用户的出价历史等辅助关系信息来解决基于拍卖的物品推荐的挑战。在大众汽车金融服务二手车中心（Volkswagen Financial Services used cars center）的一个专有数据集和一个真实的公开易趣数据集上的实验表明，在基于拍卖的独特物品推荐任务中，所提出的模型明显优于多个最先进的模型。

4. Offline Contextual Multi-armed Bandits for Mobile Health Interventions: A Case Study on Emotion Regulation

通过手机等普及电子设备提供治疗建议，有可能成为长期健康行为管理的可行和可扩展的治疗媒介。但是积极的治疗方案实验可能耗时、昂贵，而且在某些情况下完全不道德。越来越多的人对方法学方法感兴趣，这些方法能让实验者在部署前学习和评估新治疗策略的有用性。我们首次开发了一个情绪调节治疗推荐系统，使用来自n=114名高社交焦虑参与者的真实世界历史移动数字数据，以测试新情绪调节策略的有效性。我们探讨了一些离线情境下的bandits估计器，并提出了学习算法的一般框架。实验结果表明，所提出的双鲁棒离线学习算法的性能明显优于基线方法，表明这种推荐算法可以改善情绪调节。考虑到情绪调节在许多精神疾病中受到损害，而且这种推荐算法可以很容易地扩大，这种方法有可能增加许多人获得治疗的机会。我们还分享了一些见解，这些见解使我们能够将语境bandit模型转化为这些复杂的现实世界数据，包括哪些上下文特征对于预测情绪调节策略的有效性最为重要。

5. On Target Item Sampling in Offline Recommender System Evaluation

在离线推荐实验的配置中，目标选择是一个基本的但往往是隐含的决策。本文研究了目标抽样对比较推荐系统评价结果的影响。具体地说，考虑到目标尺寸轴上实验的信息性和一致性，我们进行了详细的分析。我们发现，在许多情况下，使用简化目标集的比较评估与使用大目标的相应结果相矛盾，并且我们对这些分歧提供了一个原则性的解释。我们进一步试图确定在矛盾的结果中哪一个更可靠。通过与无偏评价的比较，我们发现在两两系统比较中，最小目标集会产生很大的失真，而最大目标集可能也不理想，更好的选择可能在两个极端之间。我们进一步找到了在不可能进行无偏评价的情况下告知目标规模设定的方法，通过评估评估的辨别力，这与无偏见评估的一致性显著一致。

6. Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations(Best Paper)

多任务学习（Multi-task learning，MTL）已成功应用于许多推荐应用中。然而，由于现实世界推荐系统中任务相关性的复杂性和竞争性，MTL模型往往会出现负迁移导致性能退化。此外，通过对SOTA-MTL模型的大量实验，我们观察到了一个有趣的跷跷板现象，即一个任务的性能通常会通过影响其他任务的性能而得到改善。我们提出了一种新颖的分层结构来解决这些问题。PLE将共享组件和任务特定组件明确分离，采用渐进式路由机制逐步提取和分离深层语义知识，提高了通用环境下跨任务联合表示学习和信息路由的效率。在一个10亿个样本的腾讯视频推荐数据集上，我们将PLE应用于复杂相关和正常相关的任务，从两个任务案例到多个任务案例，结果表明，在不同的任务相关性和任务组规模下，PLE的性能显著优于最新的MTL模型。此外，在腾讯大型内容推荐平台上对PLE的在线评价显示，与SOTA MTL模型相比，浏览量增加了2.23%，观看时间增加了1.84%，这是一个显著的改进，证明了PLE的有效性。最后，在公共基准数据集上进行的大量离线实验表明，除了建议消除跷跷板现象外，PLE还可以应用于各种场景。PLE目前已成功部署到腾讯在线视频推荐系统中。

7. PURS: Personalized Unexpected Recommender System for Improving User Satisfaction

经典的推荐系统方法通常会遇到过滤泡泡的问题，当用户只收到他们熟悉的项目的推荐时，他们会感到厌烦和不满意。为了解决过滤泡沫问题，意想不到(Unexpected)的推荐被提出，以推荐明显偏离用户先前预期的商品，从而通过向用户呈现“新鲜”和以前未探索过的商品来让他们感到惊讶。在本文中，本文提出了一种新的个性化意外推荐系统（PURS）模型，该模型通过自我注意机制和 选择合适的意外激活函数，在潜在空间中对用户兴趣和个性化意外进行多聚类建模。在三个真实世界数据集上进行的大量离线实验表明，所提出的PURS模型在准确性和意外性度量方面都显著优于最先进的基线方法。此外，我们在一家主要的视频平台阿里巴巴优酷（Alibaba Youku）进行了在线A/B测试，我们的模型实现了每用户平均视频观看量增长超过3%的目标。目前公司正在进行部署提出的模型。

8. Recommendations as Graph Explorations

我们认为大多数推荐方法都可以抽象为一个图探索问题。特别地，我们描述了一个包含两个主要部分的图论框架：（a）推荐图，从推荐的角度对一个（应用）领域的所有元素进行建模，包括推荐的主客体以及它们之间的关系；（b）一组路径操作，推导出新的边，即：隐式或未知关系，通过遍历和组合图上的路径。最终产生的路径代数模型提供了一个抽象和共同的基础，这有利于三个方面的建议：（a）表达力-表达和随后使用的几个显著不同，现有的，但也新颖的推荐方法被减少到参数化一个独特的模型；（b）可用性-通过捕获作为底层路径代数语义中推荐机制的一部分，推荐方法的规范化变得更简单、更简单；（c）处理速度——在图引擎上实现推荐系统为几种加速执行的优化打开了大门。我们通过在路径代数模型中表达许多类推荐方法，并在一个基于广泛使用的图系统Neo4J上实现的推荐系统中对其中一些方法进行基准测试，从而证明了上述优点。

9. Recommending the Video to Watch Next: An Offline and Online Evaluation at http://YOUTV.de

“推荐下一个要看的视频？“的任务长期以来一直是推荐系统研究的焦点。然而，充分挖掘用户会话行为序列中隐藏的线索，以揭示用户的短期意图，直到最近才成为研究的焦点。基于一个实际的应用场景，本文提出了一个基于马尔可夫链的转移概率矩阵来有效地揭示个体的短期偏好。我们实验性地评估了我们提出的方法，通过比较它与最先进的算法在离线和实时评估设置。在这两种情况下，我们的方法不仅显示出了其优于竞争对手的优势，而且还暴露了平台上用户的参与度明显更强。在在线环境下，我们的方法将点击率提高了93.61%。因此，本文通过考虑序列感知为提高推荐有效性提供了现实证据，因为对于生命周期较短的项目，如电视节目（新闻、电视节目等），捕获用户的短期偏好至关重要。

10. RecSeats: A Hybrid Convolutional Neural Network Choice Model for Seat Recommendations at Reserved Seating Venues

预测位置选择（即一个人选择坐在哪里）是一项具有挑战性的任务，因为偏好具有高度的异质性，不仅取决于环境中座椅的位置，还取决于其他座椅的位置。在本研究中，我们提出了一个预测地点选择的框架。该框架通过卷积神经网络（CNN）对单个层次的离散选择模型进行扩充，该网络能够捕捉可用座位特征之间的高阶交互作用。该框架是灵活的，可以适应现实世界的位置选择数据的复杂性，例如购买的票的数量和过去购买的数量和地点的可变性。应用于地点选择实验数据和来自北美大型音乐厅的票务数据，我们表明用CNN增强个体水平的离散选择模型可以持续提供很强的预测精度。

11. Revisiting Adversarially Learned Injection Attacks Against Recommender Systems

推荐系统在现代信息和电子商务应用中起着重要的作用。虽然越来越多的研究致力于提高推荐的相关性和多样性，但最先进的推荐模型的潜在风险却未得到充分的探索，即这些模型可能会受到恶意第三方的攻击，通过注入虚假的用户交互来实现其目的。本文重新讨论了敌方学习的注入攻击问题，其中被注入的假用户行为是由攻击者用自己的模型在本地学习的，这个模型可能与被攻击的模型不同，但具有相似的属性，以允许攻击转移。我们发现，现有文献中的大多数研究都存在两个主要的局限性：（1）没有精确地解决优化问题，使得攻击的危害性降低；（2）对攻击假设了完美的知识，导致对现实攻击能力缺乏理解。我们证明，作为优化问题生成假用户的精确解决方案可能会产生更大的影响。我们在真实数据集上的实验揭示了攻击的重要特性，包括攻击的可转移性及其局限性。这些发现可以启发有效的防御方法来对付这种可能存在的攻击。

12. SSE-PT: Sequential Recommendation Via Personalized Transformer

时间信息对于推荐问题至关重要，因为用户偏好在现实世界中是动态的。深度学习的最新进展，特别是在自然语言处理中广泛使用的RNN和CNN之外，发现了各种注意机制和更新的体系结构，使得每个用户都能更好地使用项目的时间顺序。特别是SASRec模型，受自然语言处理中流行的Transformer模型的启发，取得了最先进的结果。然而，SASRec和最初的Transformer模型一样，本质上是一个非个性化的模型，不包括个性化的用户嵌入。为了克服这一局限性，我们提出了一种个性化变压器（SSE-PT）模型，在5个真实世界的数据集上比SASRec高出近5%NDCG@10。此外，在研究了一些随机用户的参与历史之后，我们发现我们的模型不仅更易于解释，而且能够关注每个用户最近的参与模式。此外，我们的SSE-PT模型稍加修改，我们称之为SSE-PT++，它可以处理非常长的序列，并且在训练速度相当的情况下优于SASRec，在性能和速度要求之间取得了平衡。我们新颖的应用随机共享嵌入（SSE）正则化是个性化成功的关键。代码和数据在 https://github.com/fulliwei9278/SSE-PT。

13. TAFA: Two-headed Attention Fused Autoencoder for Context-Aware Recommendations

带隐式反馈的协同过滤是一类普遍存在的推荐问题，只有购买或点击等积极的交互才会被观察到。基于自动编码器的推荐模型在许多隐式反馈基准测试中表现出了很强的性能。然而，这些模型往往受到受欢迎偏差的影响，使得推荐不那么个性化。用户生成的评论包含丰富的偏好信息源，通常包含对每个用户都很重要的特定细节，可以帮助减轻流行偏差。由于并非所有的评论都同样有用，现有的工作一直在探索各种形式的关注，以提炼相关信息。在所提出的大多数方法中，隐式反馈和审查分支的表示在末尾简单地连接起来以生成预测。这会阻止模型学习两种模式之间更深层的相关性，并影响预测精度。为了解决这些问题，我们提出了一种新的双头注意力融合自动编码器（TAFA）模型，该模型联合从用户评论和内隐反馈中学习表示来提出建议。我们应用了早期和晚期模态融合，使得模型能够从两个输入源充分关联和提取相关信息。为了进一步克服流行偏差，我们利用噪声对比估计（NCE）的目标，通过一个双头解码器架构“去普及”融合后的用户表示。从经验上讲，我们证明了TAFA在多个现实世界基准上的表现优于领先的基线。此外，通过将注意力权重追溯到评论，我们可以为生成的建议提供解释，并进一步深入了解用户偏好。此工作的完整代码可在以下位置获得： https://github.com/layer6ai-labs/TAFA。

14. Theoretical Modeling of the Iterative Properties of User Discovery in a Collaborative Filtering Recommender System

推荐系统中的闭环反馈回路是一种常见的设置，可能会导致不同类型的偏差。一些研究通过设计减轻其对建议的影响的方法来处理这些偏差。然而，现有的研究大多没有考虑系统的迭代行为，其中闭环反馈在将不同的偏差合并到推荐步骤的几个部分中起着关键作用。
我们提出了一个理论框架来模拟推荐系统中不同组成部分在反馈环环境下的渐进演化，并推导了用户发现和盲点的量化测度的理论界和收敛性。我们还使用真实数据集对我们的理论发现进行了实证验证，并在我们的理论框架内对基本勘探策略的有效性进行了实证检验。
我们的研究结果为量化反馈回路的效果以及设计人工智能和机器学习算法奠定了理论基础，这些算法在机器学习和推荐过程中明确地包含了反馈回路的迭代性质。

15. Towards Safety and Sustainability: Designing Local Recommendations for Post-pandemic World

COVID-19大流行使得保持社会距离以限制病毒传播的可能性变得至关重要。同时，当地企业（如餐厅、咖啡馆、商店、商场）需要经营，以确保其经济可持续性。考虑到客户广泛使用本地推荐平台googlelocal和Yelp来选择本地业务，我们建议 设计本地推荐系统，以帮助实现安全性和可持续性目标。我们对现有本地推荐系统的调查显示，它们可能导致一些企业人满为患，危及客户安全，而在其他地方，则会导致客流量非常低，从而威胁到它们的经济可持续性。另一方面，单纯的安全性和可持续性的方法会给客户带来巨大的推荐效用损失。因此，我们将该问题形式化地表示为一个多目标优化问题，并通过创新地将其映射到具有多项式时间解的二部匹配问题来求解。对多个真实世界数据集的大量实验揭示了我们方法的有效性，以及对可持续性、安全性和实用性目标的三向控制。

16. Unbiased Ad Click Prediction for Position-aware Advertising Systems

点击率预测是构建广告系统的核心问题。在许多实际应用中， 由于放置在不同位置的广告具有不同的点击概率，在训练和预测中都需要考虑位置信息。对于这种位置感知系统，现有方法通过以不同方式利用位置信息，从点击/不点击历史显示事件中学习CTR模型。在这项工作中，我们解释说这些方法可能给出一个严重偏差的模型。我们首先指出在位置感知系统中，两种不同类型的选择偏差在显示事件中共存。其次，我们解释了一些试图消除点击/不点击的位置效应的方法可能会有额外的偏差。最后，为了获得位置感知系统的无偏CTR模型，我们提出了一种新的反事实学习框架。实验证实了我们对选择偏差的分析和我们提出的反事实学习框架的有效性。

17. Unbiased Learning for the Causal Effect of Recommendation

增加用户的积极互动，如购买或点击，是推荐系统的一个重要目标。推荐者通常会选择用户将要与之交互的项目。如果购买了推荐的商品，预计销售额会增加。然而，即使没有推荐，这些物品也可以购买。因此，我们希望推荐导致购买的商品。这可以表述为因果关系方面的排序问题。尽管这一问题很重要，但在相关研究中却没有得到很好的探讨。这是一个挑战，因为因果关系的基本事实是不可观察的，并且因果效应的估计容易产生目前已部署的推荐者的偏差。本文针对推荐的因果效应提出了一个无偏学习框架。基于反向倾向评分技术，该框架首先构造了无偏的排序指标估计量。然后，对具有倾向封顶的估计量进行经验风险最小化，在有限的训练样本下减少方差。在此框架的基础上，我们发展了一个无偏学习方法来扩展一个排名指标。我们 从理论上分析了该方法的无偏性，并通过实验证明了该方法在各种情况下都优于其他有偏学习方法。

18. What does BERT know about books, movies and music? Probing BERT for Conversational Recommendation

像BERT这样过度预训练的transformer模型最近显示出在语言建模方面的强大，在许多下游任务上取得了令人印象深刻的结果。研究还表明，在预训练后，他们在参数中隐含地存储了事实知识。了解LMs的预训练过程实际学到了什么是会话推荐系统（CRS）使用和改进它们的关键步骤。我们首先研究的是，经过预先训练的BERT对书籍、电影和音乐等推荐项目了解多少。为了分析存储在BERT参数中的知识，我们使用不同的探针（即任务来检查关于某些属性的训练模型），它们需要不同类型的知识来解决，即基于内容的和基于协作的。基于内容的知识是需要模型将项目的标题与其内容信息（如文本描述和体裁）相匹配的知识。相比之下，基于协作的知识需要模型根据社区交互（如评分）将项目与类似项目匹配。我们求助于BERT的Masked语言建模（MLM）的头部，探索其关于项目类型的知识，并使用完形填空风格的提示。此外，我们使用BERT的下一句预测（NSP）头和表示相似度（SIM）来比较相关和非相关的搜索和推荐查询文档输入，以探讨BERT是否能够在不经过任何微调的情况下，首先对相关项进行排序。最后，我们研究了BERT在会话推荐下游任务中的表现。为此，我们微调BERT以充当基于检索的CRS。总体而言，我们的实验表明：（i）BERT的知识存储在关于书籍、电影和音乐内容的参数中；（ii）它拥有更多基于内容的知识，而不是基于协作的知识；以及（iii）在面对敌方数据时无法进行会话推荐。

19. Who Doesn’t Like Dinosaurs? Finding and Eliciting Richer Preferences for Recommendation

现实世界中的推荐系统通常允许用户通过各种偏好诱导技术（如“喜欢”或兴趣配置文件）来调整呈现的内容。这些启发技术通过向驱动推荐的学习组件提供丰富的信号来权衡用户的时间和精力。在本文中，我们探索这种取舍，寻找新的方式来表达他们的偏好，目的是改善用户和推荐系统之间的沟通渠道。通过需求发现研究，我们观察了人们在策展任务中表达偏好的模式，提出了组织偏好的分类法，并指出了研究的机会。我们展示了一个案例研究，它说明了如何使用这种分类法来设计入职体验，从而在不费力的情况下保持用户满意度的同时，获得更准确的机器学习建议。

https://weixin.qq.com/g/AwYAAAEFGM3u96Kcs3y_m96kIQ01wM70bFvjhWWxQqVPf1kgwuTDv76LeWhY_PcD<br>http://weixin.qq.com/r/XSjP1zrEzGezrX60931P (二维码自动识别)

炼丹笔记

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2020年推荐系统工程师炼丹手册RecSys版

作者：一元公众号：炼丹笔记上卷内容: 2020年推荐系统工程师炼丹手册第二册上卷Learning to Collaborate in Multi-Module Recommendation via Multi-Agent Reinforcement Learning without Communication随着在线电子商务平台的兴起，越来越多的顾客喜欢在网上购物。为了销售更多的产品，在...
复制链接

扫一扫