关键迭代笔记

关键迭代笔记

知识点

  1. 综合评估标准(overall evaluation criterion, OEC)
  2. 相关性并不意味着因果关系
  3. 关键指标的改进都是由很多0.1%~2%的小改动累积起来的,所以你需要将一个作用于10%用户的5%的影响稀释到0.5%
  4. 必应几百人的关联算法团队每年的任务就是将单个OEC指标提高2%。
  5. 速度非常关键,亚马逊一个100毫秒的减速实验使销售额减少了1%,必应和谷歌的联合演讲展示了性能对关键指标的显著影响
  6. 将战略和OEC绑定创造了“战略廉正” (strategic integrity),不是指制定出杰出的战略或拥有完美的组织,它是关于机构统一地执行正确的战略且清楚如何执行。
  7. 信息的预期价值(Expeceted Value of Information, EVI)
  8. 对照实验中,实验组有一组样本,每个对照组各有一组样本。如果零假设是来自实验组的样本和来自对照组的样本均值相同,我们会定量测试两组样本的差异的可能性大小。如果可能性非常小,则我们拒绝零假设,并宣称差异是统计显著的。比如说,有了实验组样本和对照组样本的人均营收的估计值,我们可以计算估计值差异的p值,即在零假设为真的情况下观测到这种差值或更极端的差值的概率。科学的标准是使用小于0.05的P值,也就是说,如果事实上是没有效应的,那么100次里我们的有95次能正确地推断出没有效应。另一种检验样本差异是否统计显著的方法是看置信区间有没有包含零值。 95%置信区间是一个可以在95%的时间里覆盖真实差异值的区间。对于较大的样本量,这个区间通常以观测到的实验组和对照组差值为中心点,向两边扩展1.96倍于标准差的宽度,如果零值落在置信区间外则是显著的。 P值和置信区间在假设检验中是等价的
  9. 统计功效(statistical power),是如果变体之间有真实差异,检测出有意义的差值的概率(统计上指当真实有差异时拒绝零假设概率)。通常情况下,统计量越大,统计功效越大,通常选取80%~90%。
  10. 周内效应:周末访问的用户群体可能和周中访问的不一样,即使同一用户在周中和周末也可能有不一样的表现。确保实验能覆盖一周的周期是很重要的。我们建议实验至少要运行一整周。
  11. 初始和新奇效应:有些实验在初始阶段有较大或较小的效应,并在之后一段时间趋于稳定。而有些功能会有一个被接受的过程。遇到这种情况时需要延长实验时间段。
  12. 多种漏洞都会使实验失效,我们需要关注护栏指标(guardrail metric)或者不变量(invariant),这些指标不应该在对照组和实验组之间存在差异。如果有差异,那么实验中测量到的差异有可能是由其他变动而不是被测试的改动导致的。如果合理性检查失败,那很有可能背后的实验设计,基础设施,数据处理是有问题的。
  13. 特威曼定律:任何看起来有趣或与众不同的数字通常都是错误的。经验显示,很多极端的结果都是由于工具化记录的错误,数据丢失或计算错误导致的
  14. 关于P值的理解:当假定零假设为真时,得到的结果与观测到的结果相同或更加极端的概率,零假设的条件至关重要。
  15. 置信区间:可以量化实验效应的不确定程度。置信水平表示置信区间应包含真正的实验效应的频率。 p值和置信区间之间存在对偶性。若实验组和对照组95%置信区间有重叠则实验不显著,这个结论是错误的,反之则正确,即若实验组和对照组95%置信区间不重叠则实验显著。
  16. 样本比例不匹配(Sample Ratio Mismatch, SRM),例如,如果实验设计是一比一的比例(实验组和对照组大小相等),那么实验的实际用户比例出现偏差可能意味着某个问题需要进一步调试。如果有比较大的样本,设计的样本比率为1.0的实验出现了小于0.99或者大于1.01的比例意味着实验有严重的问题。
  17. 残留或延滞效应:新的实验通常会涉及新的代码,这时错误率会比较高。新实验通常会因引起一些意向不到的严重问题而终止。修复问题后实验继续运行,但是一些用户已经受到影响了,残留效应可能会持续数月。这就是为什么要在实验前运行AA实验,并主动重新随机化用户的重要原因。
  18. 初始效应,因为旧功能占主导地位,也就是说用户习惯饿了旧功能的工作方式,引入改动后,用户可能需要一些时间来适应新功能。
  19. 新奇效应,无法持续的效应,引入新功能时,用户会被吸引并使用,如果用户认为该功能无用,则随着时间的推移,实验效应会迅速下降
  20. 实验群体的细分,可以参考的维度有:
    • 市场/国家/地区:某些功能在某些国家/地区更好
    • 设备或平台:ios/android
    • 周内效应:周末和平时不一样
    • 用户类型:新老,新用户是指某天(实验开始前某天)之后加入的用户。
  21. 评估两个互为穷尽且互斥的细分群的实验效应时,我们可能会看到OEC在两个细分群上都提高了,但总体OEC却下降了。这和辛普森悖论不同,这是由于用户从一个细分群迁移到另一个细分群所导致。例如,使用F的人均会话数为20,而未使用F的人均会话数为10。如果实验导致会话数为15的人停止使用F,那么使用F的人的人均会话数会提高,不使用F的人的人均会话数也会提高,但总体的人均会话数可以朝任意方向移动:向上,向下,不变。(这点存疑
  22. 麦肯锡MECE: Mutually Exclusive Collectively Exhaustive,相互独立,完全穷尽。
  23. 辛普森悖论:本质上是由于两个群体的占比变化较大所导致(权重的变化),并且两个群体本身存在一定的差异。在数学上,如果a/b<A/B且c/d<C/D,则完全有可能得到(a+c)/(b+d)>(A+C)/(B+D)
    在这里插入图片描述
  24. 确凿性原则定理,如果一项行为增加了每个细分群中事件E的可能性,那么它也必然增加整个群体中E的可能性
  25. 优秀的数据科学家应保持怀疑的心态,他们研究异常的现象,对结果提出质疑,并在结果看起来过于出色时援引特威曼定律
  26. 实验成熟度模型:
    • 爬行:此阶段的目标是建立基本的先决条件,主要是日志记录和基本的数据科学功能,以便设计、运行和分析一些实验。
    • 步行:此阶段的目标是从解决先决条件和运行一些实验到着重于制定标准指标并运行更多实验。此阶段可以通过验证日志记录,运行AA测试以及测试样本比率不匹配(SRM, Sample Ratio Mismatch)来提高可信赖程度。 (***)
    • 跑步:此阶段的目标是转变为规模化实验。指标将是全面的,并且此时的目标是统一指标或制定一个综合评估标准以获得多个指标之间的权衡标准。处于此阶段的机构通过实验来评估大多数的新功能和改动。
    • 飞行:此阶段的机构将A/B实验作为每次改动的标准。重点转移到支持这一规模的自动化,以及建立机构的经验传承。粗略的经验法则是,爬行阶段的机构每月大约运行一个实验,之后每个阶段的实验次数是4-5倍,步行阶段每周大约运行一个实验,跑步阶段每天一个实验,飞行阶段每年数千个实验。
  27. 最高薪酬者的意见(Highest Paid Person’s Opinion, HiPPO),机构需改变认知从强烈依赖HiPPO的模式,通过持续的测量,实验和知识积累,机构才能达成基本的认知,此时原因才能真正被理解,模型才真正起作用。为了达到最后一个阶段,不同级别的高管和经理的支持是必不可少的,这包括:
    • 就高阶目标指标和护栏指标达成共识,参与制定权衡方案以最终建立OEC。
    • 根据指标的改善来设定目标,而不是根据功能X和Y的交付。当从“在不损害关键指标的情况下交付功能“转变为“除非它改进了关键指标否则不交付功能“时,团队就有了根本转变。向数据启示的文化转变时,用实验作为护栏是一项艰巨的文化变革,尤其是对于大型的成熟团队而言。
    • 要预设很多想法的失败,并在这些想法无法移动旨在改进的指标时表现的谦逊,建立快速失败的文化。
    • 期望正确的工具化日志记录和高质量的数据。
    • 审核实验结果,知道如何解释它们,执行诠释标准,尽可能减少对p值的操纵,并透明化这些结果如何影响决策。
    • 通过较短的发布周期提高敏捷性,以创建健康且快速的实验反馈回路,并要求设立灵敏的代理指标。
  28. 实验平台必须涵盖从设计和部署到分析实验的整个过程,主要由以下四个组件构成:
    • 通过用户界面(UI)或应用程序接口(API)定义、设置和管理实验,并存储在实验系统配置中
    • 服务器端和客户端的实验部署,涵盖变体分配和参数化
    • 实验相关的工具化日志记录
    • 实验分析,包括指标的定义和计算,以及统计检验,如p值
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值