一、背景
内容平台涉及到内容创作者和消费者双方,属于双边市场。创作者和消费者的角色边界更模糊、互相的影响更强,新产品迭代可能先直接影响到创作者,进而间接影响到消费者,或直接影响消费者,间接影响到创作者,即存在效果的溢出。常规的ab实验里,由于base组已经受到间接影响,可能低估实验效果。双边实验更适用这类场景,可评估实验的真实效果以及溢出效应。
以“消息触达”为例,实验组创作者收到评论、回复,可能影响其创作的动力和风格,进而影响到其他消费者;消费者因为收到回复,看到作品的评论,可能影响消费者活跃度、用户体验,进而影响到对其他创作者的行为,使得实验效果溢出到对照组。
图:简单消息触达-ab实验里的效果溢出示例
二、双边实验
双边实验的实验设计如下:将创作者和消费者都分为实验组、对照组,只有同时处于实验组时,才能看到新的产品功能,即A。D将完全不受到新产品功能的影响,A和D的差距是新功能的真正效果。由于B的消费者已受到实验的影响,则B和D的差距体现了消费者侧的溢出。C的创作者受到了实验的影响,C和D的差距体现了创作者侧的溢出。
实验组创作者 | 对照组创作者 | |
---|---|---|
实验组消费者 | 看到新功能A | 看不到新功能 B |
对照组消费者 | 看不到新功能C | 看不到新功能 D |
表:双边实验设计示例
其中,UGC场景可能涉及到部分用户既是创作者,又是消费者,此时为了用户体验的一致性,需要让这类用户要么位于A,要么位于D。
双边实验的优点为可以检测出实验真实效果,同时检测出对创作者、消费者的溢出效应,有利于理解实验起作用的机制。
对于双边市场,其他ab实验方式有:将实验组和对照组的创作者、作品、消费者完全隔离,则互不影响。弊端是当作品数量不够丰富时,可能影响内容生态的多样性。由于用户-创作者之间属于网状关系,常常不能简单切分,需要根据网络结构切分,避免将用户与常访问的创作者切分开。
三、实验设计
以消息触达功能为例,双边实验的实验设计如下。
1. 目标和假设
实验目标:检测“消息触达功能”功能对创作者、消费者的大小。
零假设(H0):新功能没有效果。
备择假设(H1):新功能会显著提高UGC发文数量,提高用户活跃度。
实验分组:
实验组创作者 | 对照组创作者 | |
---|---|---|
实验组消费者 | 有消息触达功能 A | 无消息触达功能 B |
对照组消费者 | 无消息触达功能 C | 无消息触达功能 D |
2. 主要指标
分组和样本量:UV以检测分组是否均匀。确定最小样本量(实验流量)和实验期限。考虑到学习成本,用户可能需要一定时间适应新功能,期限可适当延长。
对创作者发文的影响:动态发布数量、过审数量;
对消费者体验的影响:评论及回复评论数、评论率、导出;
3. 数据分析过程
a. 检验是否分组均匀,是否达到最小样本量;
b. 各个指标差距是否显著以及置信区间;
c. 得出实验的真实影响,以及溢出效应大小;可能有复盘、迭代。