实验三 lr分析器的设计与实现_搜索推荐算法实验平台的设计与实现(一)

本文介绍了搜索推荐算法实验平台的设计思路,强调了AB测试中量化指标的重要性,如PV、UV、CTR等。用户稳定性和实验周期的公平性是实验成功的关键,同时考虑长期反馈以确保结果可靠性。实验平台的整体架构将在后续文章中详细阐述。
摘要由CSDN通过智能技术生成

背景


大多数公司都会有搜索推荐的业务场景,除了工程层面的,还有就是算法方面的了,对于算法, 我们想支持进行尽可能多的实验,如果限制了同时进行的实验的数量,那是绝不可被接受的。 我们进行实验是为了测试一些新的特性和挖掘一些已有特性的提升空间。 对于已有特性,实验可以学习到用户的反应并可以对特性进行优化。 试想一下,如果在搜索结果页上的内容都是通过参数控制的,包括展示方式和算法。 通过对参数设置不同的参数值进行实验,我们可以用衡量指标(用户体验,收入或其它指标)来决定是否要进行哪些修改以得到最好的结果。 对UI的修改通常会使用实验来评价用户反应,但需要注意的是算法的修改同样也需要实验。 例如:假设一些团队想测试一个新的机器学习算法来预测广告CTR,或是测试对现有算法的调整(比如,修改学习速度或是收敛速度)。虽然线下评估可以进行一些分析后,可以缩小参数的最佳取值区间(不是最佳取值),但最终这些参数还是需要在线上流量进行评估,分析这些参数在真实的流量上的效果(因为修改可能会影响用户的行为,并改变流量本身的模式,这是不可能在线下环境评估的)。所以,评价这些机器学习算法是需要通过线上实验的方式进行的。

推荐算法的实验也是如此,支持不同推荐场景的多个实验,需要灵活的配置,不同的实验需要不同的配置和不同的流量来衡量实验的统计意义上的效果显著性。

在设计算法实验配置之前,我们先来了解下AB Test

AB测试


首先对A/B测试进行一个简要的概述。首先需要明确以下几个关键的问题: 为什么需要AB测试实验, AB测试实验到底能做什么?  AB测试实验的过程中需要注意什么,效果如何分析?  一个优秀的AB测试框架需要具备哪些好的特性? 接下来就从这几个方面来对AB测试进行介绍。 简单来说, AB测试是当面对一个改进目标有两种甚至多种不同的方案的时候,为了避免盲目决策带来的不确定性和随机性,将各种不同的实验同时放到线上让实际目标群体选择,然后利用实际数据分析的结果来辅助进行决策的一种方式和手段。所以,AB测试本身是验证决策的过程而非决策本身。AB测试的常见的应用场景应该满足以下几个条件。

优化场景

AB测试并不能给出解决方案, 而只是辅助我们对若干候选方案进行选择。因此当我们需要对一个现有问题进行优化, 同时又不确定哪个方案更优时, AB测试是一个自然而然的选择。对于互联网类型的产品而言, 优化的方案一般可能是用户的交互和设计上的优化,可能是不同的预测和排序策略的优化, 也可能是不同的运营活动配置的优化。总体来说, 当我们有多种不同方案的时候 ,AB测试更适合用在优化类的场景中, 是对一个已知问题不断改进和优化的过程。而一个全新和创新性的问题一般不会用到A/B测试

量化指标

要运用AB测试来改进系统,另外一个重要的因素就是要改进的目标需要有一个或者多个可量化的明确指标,并且这个指标会直接或者间接受到该方案的影响。指标的制定需要做到含义明确、计算方式明确,并且对于不同的实验计算方式是保持一致的。比如: 有一些指标可以经常关注,如PV( Page View)、UV(UserView)、CTR、CVR,CPM等。有了明确的量化指标之后,实验组和对照组的效果就能被快速监测和分析,可加速整体的决策过程。

用户稳定

由于AB测试将不同的设计或者策略呈现给一些随机的用户群体,之后统计各用户群体的群体指标, 因此用户群体的选择和划分也是A/B测试是否成功的重要因素。为了保证AB测试的数据的准确性和公正性,一般来说用户的划分需要满足以下几个原则:  整体用户群相对稳定且用户量足够,如果产品处于初期用户积累和爆发的阶段, 那么用户量和用户群体的变化往往会导致AB测试的结果受到影响; 用户群体的划分必须保证随机性, 确保每个实验组中的用户都是随机划分而非人为指定;  用于对照的两组或者多组实验的用户量必须对等,实验的时间周期也必须对等。总之, 需要保证整体实验的群体稳定且不受客观条件的干扰。

长期反馈

在设计和实现AB测试实验的时候,要尽量控制除实验之外的影响因素保持固定。但是实际情况往往未必如此。因此,为了得到真实可靠的实验结果,有时候需要有一个相对较长的反馈周期。尤其产品本身就有一定的周期属性、节假日属性或者季节属性的情况下,如:双十一,618,各种专卖购物节等等, 我们需要在一个自然周期下来观测对比实验的结果, 最终得出实验的效果分析和结论。

实验流量分配 好的AB测试实验,其每个分支实验必须保证流量分配的正交性、均匀性、充足性。正交性是指在多层实验分组的情况下,每层之间的流量需要被重新打散分配,避免一部分流量固定经过几个实验,导致最终效果出现偏差;均匀性是指实验组和对照组的实验流量需要是对等的,流量划分不能在出现较大的差异;充足性是指每个分支实验获取的流量是足够的,避免由于流量太小带来的随机扰动。一般来说,如果每个实验下的采样用户少于1000,那么最终得到的实验结果的波动会非常大。在这样的情况下应该采取加大流量比例,做大流量的对比实验。 排除实验自身干扰 由于AB测试本身的思想就是采用控制变量法来得到对实验变量效果的观测,因此如果实验自身引人了其他不确定因素,这也会导致最终实验效果的不可预估性。常见的且容易被忽视的自身干扰因素包括改进的方案和策略带来系统性能的下降、稳定性的下降等。这些因素虽然和当前实验内容没有直接的联系,但是却会给实验的结论带来较大的影响,因此这也是在AB测试的过程中要尽量避免的。 为了达成上述AB测试的目标, 我们需要一个好的实验平台。

实验平台设计


实验平台的设计,参考了Google如下的分层实验论文
《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/36500.pdf

实验管理平台的整体架构如下图

d20d9174ea56add085ee1d0500660619.png

下篇文章具体介绍分层实验的详细设计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值