深入浅出推荐系统（六）：召回：一切为了业务

最新推荐文章于 2023-10-31 17:03:43 发布

慕阮

最新推荐文章于 2023-10-31 17:03:43 发布

阅读量1.2k

点赞数 3

分类专栏：推荐与广告深度学习文章标签：推荐系统深度学习推荐算法

本文链接：https://blog.csdn.net/muruan08/article/details/125788033

版权

推荐与广告同时被 2 个专栏收录

9 篇文章 11 订阅

订阅专栏

深度学习

5 篇文章 0 订阅

订阅专栏

在前面几篇文章里，我们介绍了主流的召回模型和算法。但算法更多地是从个性化推荐的角度来解决问题。许多业务上的问题，如安全问题、商业价值、用户体验、流量扶持等种种业务需求，仅仅基于模型，是无法得到完美解决的，它们需要人的参与和决策。
仅从召回系统来说，召回池中必然会存在人工策略的部分，用于获得优质的用户体验，以及商业目标的实现。如果把模型召回比喻成经济学中的市场机制，通过自由竞争来高效地完成资源交换，人工策略则属于宏观调控机制，通过人工调节，来引导市场向着健康成熟方向发展。

本文我们抛开技术层面，从业务支持角度，来谈谈召回系统中的人工策略调控。我们会从人工策略目标，人工策略方式，人工策略价值评估，人工策略的技术协作等几个角度来具体阐述。

人工策略目标

流量扶持

无论是推荐系统，还是广告系统，都会有流量扶持策略。具体地说，会包含新人扶持、新品培育、优质作者/卖家扶持、KA广告主扶持，以及针对平台某些战略目标而进行的流量倾斜，等等。

新人新品，通常根据业务需求进行定义，如自媒体的所谓新内容，其周期较短，通常为天级别，而电商物品，周期则较长，可以延伸到周或月级别。比如淘宝，定义注册店铺开始持续3个月的时间为新开店铺，会给予一定的流量倾斜。

对优质内容，通常有如下判断标准：（1）经过时间检验过的内容，一般为编辑遴选内容，如专题，频道首页等；（2）数据表现好的内容，通常以点击率、点赞率、视频类以完播率、跳出率等指标来考核和综合判定；（3）优质可信的作者/卖家/内容渠道发布的内容。比如抖音更关注垂类，对高质量新闻、教育、知识、体育、汽车等内容给予扶持。 $^{[1]}$

安全考虑

无论是信息流、还是电商，都或多或少存在安全问题。需要对内容进行把关，避免推荐不合适的内容。内容在上传的时候，就会进行安全审核，其目的是避免黄、赌、毒、暴力、低俗信息、政策不允许内容入池。内容入池后，如果数据表现亮眼，还可能会进行第二次的质量审核，以防不合适内容由于漏审而对平台带来更多负面影响。

高热内容会有专门的审核，以保证内容符合平台的调性，且不存在政治及安全问题。除了主动审核，一般平台会配置用户举报通道，通过对用户举报内容进行审核，及时下架违规内容。

安全审核通常是机器审核配合人工审核，对于一般的安全情况，通常会使用分类模型对正负样本进行训练，如文章[2]就描述了淘宝负面图片的识别算法。线上由模型判断内容的安全性，如果安全性较低，则分发给人工审核进行进一步判断。

当内容被召回后，会对已经标注过的违规内容进行过滤。

社区生态

好的生态能形成生产者与消费者的良性互动，扩大生产者的生产意愿，同时可以进一步促进拉新、促活、留存等指标的提升。

社区生态的打造体现在内容生产、分发、互动引导、内容分享和用户成长路径等方面。仅看推荐系统，其在分发过程中涉及到的重点品类的强化、优化目标的选取（时长、点击率、留存率等）、社区头部内容的调性把控，都会在一定程度上服务于社区生态的建设。

在召回过程中，召回渠道通常会包含运营定制的重点类目、标签、主题类内容池。在后续排序及重排过程中，会对运营重点类目进行强化，从而加强曝光，以达到针对重点品类进行运营的目的。

优化目标选取乍看只是模型建模目标的问题，但宏观上讲，实际关乎了平台的价值取向。举一个例子，视频平台如果会在视频中插入多段广告，那么就会以视频观看时长为建模目标，从而倾向长视频的推荐；而短视频平台以对用户“kill time”的能力为导向的话，就会以完播率为建模的一个目标。
再看一个例子，对于短视频平台来说，价值观是希望打造“爆款”话题，聚焦高质量内容，还是让更多普通人有机会发声和被看见，意味着建模的目标和特征选取的极大差异性：前者会侧重热门池内容，同时会按交互量建模；而后者则会关注用户，通过不同方式来提升热门视频被召回的门槛–这也是抖音和快手呈现出不同生态的原因：抖音进入进入热门流量池的视频一定是少量的精品，大部分长尾内容无法得到曝光；而快手会引入“基尼系数调控”，当视频热度达到一定阈值后，它的曝光机会将不断降低，从而减小视频间的“贫富差距”。 $^{[3]}$

笔者认为，所谓生态，就是一个平台的价值观。算法则是在这种价值观的指引下，通过鼓励和打压，最终把平台打造成所需要的样子。

人工策略的价值

相较于算法分发，人工策略的显然是高成本（因为需要人工标注，入池，复盘等操作）且低效（分发并不能保证指标上的效果上）的。它的重要性主要体现在商业价值上。

用户增长有AARRR模型，即拉新（Acquisition）、促活（Activation）、留存（Retention）、变现（Revenue）、传播（Referral），每个环节均可以人工策略方式介入。

举个例子（此处不进行评判），有一些平台，通过“大数据杀熟”，对敏感程度不同的用户，对同一商品给不同用户呈现不同价格，从而完成更好的变现模式（当然这种方式是极不道德的）。还有一些平台，根据用户的价格敏感程度不同，为用户定制召回适合该用户价位的内容，促进成交，从而提升平台的变现效率。再举个例子，对于平台新用户，通常会通过运营定制的注册兴趣匹配或热门内容展现，来吸引新用户，在一定程度上增加新用户的留存。

人工策略的介入方式

人工策略的实施者通常包含以下几类人群：运营人员、产品、策略工程师（在许多公司，不仅有算法工程师，也有策略工程师，通常会针对某些业务指标进行优化，使用手段不限于人工规则和算法）。他们对于人工策略的实施手段可能是不同的，但介入阶段和目标则是比较相似的。

人工策略在召回中的干预方式在前面已经谈到几点，包含遴选内容进入特定内容池；对不合适的内容打标，避免进入召回池；以及与算法共同定制合适的指标，从而影响生态构建。从召回建模阶段的整个周期来说，人工策略的介入包含数据层面、算法层面以及结果层面的调控。了解人工策略介入的方式和阶段，也有助于在算法架构设计时，预留人工交互的部分。

数据层面

运营人员在数据层面上的参与方式多体现为数据标注。数据标注有两种方式：一种是人工标注；还有一种是使用训练好的机器学习模型来标注，再由人工介入修正。数据标注在推荐领域有其自身的价值：一方面，经过运营人员（或外包/众包）打过标签的内容，可以用于算法训练（如，对某些图片鉴定为黄图，标注后的图片可以作为正样本，用于进行算法训练；或者将某类内容打上“优质精选”的标签，用于召回池的构建）；另一方面，也可以用于运营管理（如，对某一类标签进行线上实时提权或降权）。

算法层面

算法层面上，多由策略工程师来负责实施。但有些情况下，运营人员也可以以不同方式参与到算法中，运营人员的参与包括以下几方面：
一、特征的选取：哪些特征更为有效，哪些特征与用户行为关联更大，运营人员一般会有更高的业务敏感度和专业度。策略工程师在筛选数据时可以参考运营人员的建议。

二、建模过程：建模通常是由算法人员完成的。但借助于某些平台的强大的拖拽式建模能力（如阿里的PAI平台），稍懂一些算法的运营人员也可以像搭积木一样搭建模型，进行训练并部署到线上。借助AB测试框架，探查模型效果，不断迭代。

在这里插入图片描述

阿里的PAI平台，可拖拽式建模

三、召回池的构建：运营人员可以筛选优质内容入库，直接在召回侧进行干预。从召回层面上看，配合业务的渠道可以是各种各样，五花八门的，取决于具体业务场景。虽然推荐常用协同过滤、双塔模型等等，但一些具体业务则需要结合场景考虑，比如O2O的场景中，为用户推荐的是离用户较近的商户，则多采用基于LBS，即地理位置的召回。再比如，笔者之前经历过的一家二手电商公司，曾有过类似经历：业务人员认为，尽管是二手平台，但要保持一定的调性，也就是要有一些比较好的商品能够露出。商品比较好，这个判断是十分主观的，我们定制了较为简单的策略，单纯把价格比较高的商品，作为一个单独的召回池，用于推荐，也取得了不错的效果。当然，如果从商品质量、图片质量、发布者信誉度等等方面，也可以进行挖掘，来构建所谓“好”的商品池。

结果层面

尽管经过事先过滤，但推荐结果仍然可能会存在问题。比如，由于政策、监管或安全原因，某些话题需要立即下线；或者由于版权问题，需要下架某些作者/歌手的作品，等。因此，推荐系统需要有能力批量化下架内容。

除了能上下架内容，策略还可以对算法结果进行加权和降权，来干预算法的排序结果。通常加降权体现在推荐系统的重排序阶段。对于内容的权重调节出于很多方面的考虑：同类内容打散、指定类目的露出、某些作者/标签的加权，某些内容的保量、以及提升推荐系统的多样性和惊喜度，等等。运营的这些调控方式，多为推荐工程师后端实现，并结合热生效的配置平台（携程的阿波罗，点评的Lion平台等），将规则实时注入推荐系统，最终产生对结果的排序干预。

除了常规化使用加权降权方式，来干预结果的权重，以期提升或减少曝光，人工策略实际上也可以像算法一样，通过规则对推荐结果进行干预，从而实现指标提升。比如针对点击率的提升，可以采用一些粗暴的手段，比如直接将前一天点击率高的物品排到首位，这样也能带来效果提升（当然会对生态产生一定负面影响，这是需要综合考虑的问题）。

人工策略的价值评估

一个策略是好是坏，需要有公允的评估方式，才能保证策略的持续可迭代。那么，该如何对人工策略的效果进行评估呢？主要有以下几个方面：

一、用宏观指标的趋势变化来评估人工策略的价值。人工策略通常是为了某些业务指标的提升。通常来说，一个公司会定制一个满足其业务需求的“北极星指标” $^{[4]}$ ，比如DAU（日活跃用户数），MAU（月活跃用户数），GMV，用户人均在线时长等，而其他的日常指标则是基于北极星指标的拆解。当一项人工策略被部署并运行一段时间后，比较其所针对的业务指标在干预前后的变化，来评估策略的有效性。

需要注意的是，评估时要保证评估指标的对齐：比如人工策略目标是对低活跃用户进行促活，以两个月为观察期，以低活用户的点击UV为指标，假如低活用户的定义是28天内活跃天数低于3天的用户。此时，对人工策略的评估要注意策略用户群的稳定性：在人工策略介入时圈定低活用户，评估则需针对对这群用户进行，而不是针对两个月后的低活用户（因为经过人工策略的干预，前期低活用户可能已变成中高活，而新的用户再次涌入，变成新的低活用户）。

当然，宏观指标的评估在大部分时候存在一定问题，即，若同时有多个策略的介入，且目标各不相同，甚至彼此相悖，那么该如何估算每个策略对彼此目标带来的影响。比如，有的人工策略目标是提升用户点击，而有的人工策略则是优化生态，提升内容质量，那这两个目标可能是有一定冲突的，前者带来的提升可能会被后者消除，那么该如何评估两者各自的效果呢？这时，能够独立评估每个策略价值的AB测试就成了另一种有效评估方式。

二、通过AB测试来评估人工策略的价值。AB测试通常用来对算法和产品迭代效果进行科学的检验，实际上人工策略也可以采用这套评估方式。AB测试通常将用户随机分成AB组（当然，在不同时间段里，同一个用户的分组是固定的，以保证用户体感的一致性），一组应用了人工策略，另一组除了没有应用该人工策略，其他功能完全一致。

AB测试运行过一段时间后，对观察期指标在AB流量上进行对比，就可以评估出人工策略对指标的影响。AB测试一般是对比较复杂，无法进行事先预估的人工策略进行评估，同时需要保证策略实施用户群的稳定性。像前面所举的例子–对低活用户进行干预促活的人工策略，实际上不太适合AB测试，因为该AB测试限定在低活用户上，人工策略如果特别有效，会使得低活用户不断变成中高活用户，而产生效果的用户会不断脱离AB流量的观察，使得评估结果变得不够公平。

三、通过用户调研来评估人工策略的价值。
用户调查是一个直接获取用户评价的办法，AB测试虽然可以对人工策略进行宏观指标评估，但无法反馈真实的用户体验。后者则可以通过用户调研来获得。用户调研是通过问卷调研、电话访谈、面对面交流等方式来了解用户，获取他们对推荐系统的看法，以及对人工策略的体验和建议等。对用户的调研，还有助于算法和运营人员洞察用户心理，并将这种洞察进一步反映到产品策略的迭代中去。

四、抽取样例进行评估
用户调研虽然贴近用户，但是成本较高，流程冗长，一般实践中，多采用抽取样例（case）进行评估的办法。笔者经历过的一家公司，部门主要业务是针对用户的广告定向投放，为了评估给用户曝光的广告是否与用户兴趣一致，我们搭建了一个包含UI的样例评估系统，从后台小批量抽取id，并展现对用户近期曝光的广告信息，以及用户的兴趣相关信息，可以快速方便地探查用户推荐样例，由此排查坏样例（bad case），而不断改进定向策略。

一些小的公司可能不具备快速搭建分析系统的能力，也可以依赖借助一些现有工具来实现case分析，笔者曾经历过一家创业公司，当对一些推荐不准的问题进行排查时，因为没有样例评估系统，我们便就地取材，借助审核系统来进行分析。因为该审核系统可以利用物品id快速审查一些物品的资质、类目、发布时间等信息，可以方便定位给某些用户推荐的物品是否存在问题，相较于通过大数据分析获取相关内容，更为直观迅速。

有的公司在前端团队支持下，会开发出产品的调试版本（不同的网页进入入口或debug版本的app），开发人员可以在调试版本中，以自己的用户id来体验新的策略功能，并查看更多调试信息（比如召回渠道，打分内容等），从而方便快速地排查问题。

人工策略的技术协作

人工策略有效地借鉴产品运营人员对行业的深刻洞察、对趋势的判断把握、对复杂因果逻辑的分析，因此是推荐系统中必不可缺的一环。技术上如何能够很好地支持人工策略，使之能与模型支撑的推荐系统无缝衔接，流畅配合，是一个在推荐系统设计之初就需要考虑的问题。

为策略介入提供灵活可操作的界面，是很关键的一步。运营人员及策略工程师需要能以成本较低的方式灵活调配流量权重，且操作需要能实时响应，快速影响到系统结果，最理想情况能做到所见即所得，即策略的配置能够快速生效，并能够在实验系统中查看效果。这就需要周边技术体系的支持，如热生效动态配置系统、AB分流体系和实时数据处理系统，等。此外，系统需要记录策略配置历史，以方便对策略设置进行追溯。

人工策略干预通常不会独立存在，需要跟算法互相配合，例如前面举的例子，在安全审核方面，通常由机器先审，有较高风险的再由人审，系统对这样的审核流程予以支持，可以保证更好的审核效率。再如不同的召回渠道，召回的结果可能需要业务干预，包含排序和加权等逻辑，系统上实现调控策略配置的实时更新，则可以为策略与算法的互相配合提供更好的支持。

总之，推荐系统本质是一种运营系统，最终服务的是人，机器学习可以不带有感情色彩地，理性客观地进行判断和预测。但最了解人类自身的还是自己，在机器学习之上，整合人类的经验和思考，会使得推荐系统更加富有人情味儿、更有温度情怀。机器和人工策略的协作，可以实现优势互补，让推荐系统更加完美。

参考文献
[1] 那些在抖音“混不下去”的MCN和网红们：到底输在哪？
https://m.thepaper.cn/baijiahao_10229894
[2] 内容安全实战：淘宝首页的“辣眼睛”图去哪了？
https://www.secrss.com/articles/15912
[3]产品与算法：抖音、快手的生态成因。https://pdf.dfcfw.com/pdf/H3_AP202010201422479434_1.pdf?1603191905000.pdf
[4]《硅谷增长黑客实战笔记》，曲卉，机械工业出版社，2018.4。

慕阮

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深入浅出推荐系统（六）：召回：一切为了业务

仅从召回系统来说，召回池中必然会存在人工策略的部分，用于获得优质的用户体验，以及商业目标的实现。如果把模型召回比喻成经济学中的市场机制，通过自由竞争来高效地完成资源交换，人工策略则属于宏观调控机制，通过人工调节，来引导市场向着健康成熟方向发展。...
复制链接

扫一扫