自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

NL的博客

一个对技术渴望的coder

  • 博客(174)
  • 收藏
  • 关注

原创 AB实验高阶技法(四):方差分析 ANOVA —— 当实验组不再只有A和B

一个因素的效果,依赖于另一个因素的水平。早上发送时,“福利体”效果更好。晚上发送时,“震惊体”效果更好。这就是典型的交互效应。如果只看主效应,你可能会得出“两个文案差不多”的错误结论,从而掩盖了精细化运营的机会。如果两条线是平行的,说明没有交互效应。如果两条线交叉或斜率明显不同,说明存在交互效应。用 T 检验。必须先用确定整体差异,再用Tukey HSD做两两分析,严防第一类错误膨胀。用,重点关注交互效应,这是挖掘细分人群策略的金矿。

2026-02-02 23:45:10 345

原创 AB实验必修课(一):线性回归的深度重构与稳定性评估

诊断先行:画残差图看同方差性,算 VIF 看共线性。特征工程:类别变量必须 One-hot,异质性分析必须加交互项。稳定性评估不要迷信单次测试的 MAE。使用重复 K 折或训练集 Bootstrap来量化“训练扰动”带来的不确定性。警惕“方法4”(K 折模型 + 固定 Test)带来的方差低估风险。模型调优:如果共线性严重,果断上 Ridge;如果想筛特征,上 Lasso。线性回归看似简单,实则是统计学的基本功试金石。用好了,它就是最锋利、最透明的手术刀。

2026-02-02 23:39:52 522

原创 AB实验高阶技法(三):Uplift Modeling---从“一刀切”到“精准手术”

摘要: AB实验中,传统平均效应(ATE)常掩盖用户异质性,导致策略对部分群体有害。Uplift Modeling通过预测个体增量效果($\tau(x)=E[Y|X,T=1]-E[Y|X,T=0]$),将用户分为四类:摇摆人群(重点干预)、铁粉和无动于衷(不干预)、反感人群(避免干预)。主流方法包括: S-Learner:将干预作为特征训练单一模型,但易忽略弱信号; T-Learner:分建实验组/对照组模型,但误差叠加; Uplift Tree:直接优化分裂准则,最大化干预效果差异。 工具推荐causal

2026-01-31 20:46:18 1153

原创 AB实验的高阶技法(二):异质性分析利器——线性回归

摘要: 线性回归在A/B实验中不仅是T检验的替代工具,更是异质性分析的核心方法。通过引入交互项,回归能严谨检验实验效果的人群差异,避免下钻分析的统计陷阱。文章详解了回归的四大假设、交互项的原理及Python实现,并指出其与CUPED、Uplift模型的关联。回归以更高统计功效回答“策略对谁更有效”,是AB实验高阶分析的必备技能。(149字)

2026-01-30 15:40:17 1242

原创 AB实验的高阶技法(一):搞定“脏数据”的特种兵——非参数检验

记住:T 检验是常规武器,非参数检验是特种部队。当常规武器失效时,特种部队往往能给出更稳健的结论。如果这篇文章帮你理清了思路,不妨点个关注,我会持续分享 AB 实验干货文章。

2026-01-28 23:42:32 711

原创 AB实验的关键认知(十五):实验统合分析 (Meta-Analysis)

统合分析 (Meta-Analysis),又称荟萃分析,是一种对具有相同研究目的的多个独立研究结果进行系统性合并的统计方法。在互联网 AB 实验的语境下,它不是让你去跑一个新的实验,而是把过去一年里所有关于“弹窗紧迫感”、“价格锚定”或“新客引导”的几十个实验拿出来,作为一个整体进行二次分析。当你的团队刚开始做 AB 实验时,关注点在Execution(执行),确保实验跑得对。当团队成熟后,关注点应转移到Knowledge(认知)。不要让你的实验数据变成一次性用品。通过实验归档和统合分析。

2026-01-28 00:00:11 630

原创 AB实验的关键认知(十四)实验复盘与总结

AB实验的价值不仅在于单次结果的涨跌,更在于复盘带来的认知沉淀。首先是精准算账:不仅要评估直接收益,更要关注护栏指标带来的间接收益,并建议利用“全局最优组”观测策略的长期影响;同时需警惕流量机会成本与计算资源的消耗。其次是转化失败:不显著的实验并非无用,它能排除错误假设,本质是获取知识的过程。再次是深度归因:不能止步于平均值,需通过分群分析挖掘不同用户群的异质性表现。最后是资产归档:建立实验知识库并进行元分析,将数据沉淀为指导未来决策的组织资产。

2026-01-26 23:42:55 708

原创 AB实验的关键认知(十三)累计口径与分天口径

AB实验中常见的“数据魔法”现象——分天数据不显著但累计后显著飙升——往往源于混淆了累计口径与分天口径这一致命错误。本文揭示了累计口径的统计学必要性(保证分析单元与分流单元一致),剖析了分天累加导致样本量虚高和假阳性的数学原理,并给出了工程实现中的三大关键细节:锚定首次进组时间、正确处理实验变更、采用"增量拉链"优化性能。文章强调累计口径是AB实验的统计底线,任何分天加和替代累计计算的做法都会导致错误决策。

2026-01-26 23:38:11 790

原创 AB实验的关键认知(十二)黄金时刻-最大统计功效阶段-MPR

摘要: MPR(Maximum Power Ramp)阶段是A/B实验的关键环节,需严格遵循SOP确保结论可靠。入场门槛要求跑满实验周期并积累足够样本量;数据清洗需剔除异常值并合理处理灰度数据;统计品质检测包括SRM检验和特征分布检验,确保分流公正;显著性评估需结合P值、MDE及趋势分析,避免误判;综合决策通过OEC与下钻分析权衡收益。这套流程是数据科学家的“法槌”,保障实验结论的严谨性。

2026-01-25 23:36:20 488

原创 AB实验的关键认知(十一)A/A实验

摘要:A/A实验是确保AB测试平台公正性的关键步骤,主要有三种方法: 实验前A/A:最严谨但耗时,适用于核心算法改动; 实验中A/A:实时但浪费流量,不推荐; 回溯A/A:零成本但事后验证,适合快速迭代。 进阶技巧:通过“锁桶”策略将实验前A/A与灰度放量无缝衔接,确保人群同质性。核心建议:重大改版用实验前A/A,日常优化用回溯A/A,新用户实验只能用实验中A/A。A/A实验是数据可信度的基石,避免因分流偏差导致错误结论。

2026-01-25 23:25:08 600

原创 AB实验的关键认知(十)SQR 放量框架

摘要: 微软《关键迭代》提出的 SQR 放量框架 为AB实验提供了科学节奏: 分阶段平衡速度(Speed)、质量(Quality)、风险(Risk): 灰度期(1%-10%流量):专注风险监控,忽略业务指标; MPR期(50%流量):确保统计显著性,产出核心结论; 推全期(50%→100%):快速释放收益。 特殊技巧:长期保留5%对照组(Holdout Group),验证策略的长期效果,避免“新奇效应”误判。 关键原则:实验不是“开或关”,需分阶段动态调整,兼顾效率与稳健性。 (约150字)

2026-01-25 00:44:55 757

原创 AB实验的关键认知(九)白名单与灰度测试

摘要: AB实验前必须通过白名单测试和灰度测试两道安全阀。白名单测试指定特定用户(如内部员工)在生产环境验证功能完备性、性能和UI;灰度测试逐步释放0.1%~5%真实流量,监控服务端压力、异常及核心指标,阶梯式放量。实时监控技术指标(错误率、延迟)和离线业务指标(转化率)异常时需立即回滚。白名单解决“能不能用”,灰度解决“抗不抗造”和潜在业务风险,避免因急于实验导致重大事故。 (字数:149)

2026-01-25 00:35:11 724

原创 AB实验的关键认知(八)实验流量规划

摘要: AB实验的流量规划是决定实验成败的关键,涉及空间、结构和时间三个维度的精密权衡。空间维度需明确实验层定位(正交或互斥),避免交互效应;结构维度要合理分组(优先50/50配比),防止样本不足拖长周期;时间维度必须覆盖完整周循环,剔除适应期数据。最终需在预期提升、流量分配和实验周期的不可能三角中做出取舍。违背统计学规律的激进要求(小流量、短周期、测微小提升)注定失败。

2026-01-23 22:47:45 945

原创 AB实验的关键认知(七)触发机制

摘要: AB实验中,策略小范围测试有效但大盘实验不显著,往往是分流位置不当导致的稀释效应。核心概念触发(Triggering)指用户真正受策略影响的时刻,分流点应尽量接近触发点。常见误区是事后圈选(Post-hoc Filtering),会导致幸存者偏差、流量倾斜等问题。正确做法是在策略实际触发时分流,避免无关用户混入分母。通过案例对比可见,精准触发能显著提升实验效果。实验设计需严谨,避免过早分流稀释指标。

2026-01-23 22:07:02 576

原创 AB实验的关键认知(六)分流单元与分析单元

摘要: AB实验设计需严格匹配分流单元与分析单元,确保统计有效性。分流单元(如User/Session)决定实验分组,必须遵循用户体验连贯性原则:UI改版等需按User分流,算法优化可按Session分流。核心规则是分流粒度≥分析粒度,否则破坏统计独立性(如Session分流计算DAU会失效)。按User分流计算PV级指标(如CTR)需用Delta Method校正方差。设计时需对照自查表,避免常见错误,确保实验结论可靠。(149字) 关键词: AB实验、分流单元、分析单元、用户体验、统计独立性

2026-01-22 21:20:34 728

原创 AB实验的关键认知(五)综合评估标准 OEC

OEC 的本质,是将**“多维度的纠结”降维成“一维度的数值”**。起步期:用“四象限法”快速过滤明显的好坏策略,解决 80% 的简单决策。发展期:引入“加权得分”,让业务偏好数字化,解决指标打架的问题。成熟期:构建“经济模型”,让实验直接对财务报表负责,实现真正的 ROI 最大化。没有完美的 OEC,只有最适合当前业务阶段的 OEC。如果这篇文章帮你理清了思路,不妨点个关注,我会持续分享 AB 实验干货文章。

2026-01-22 21:09:42 756

原创 AB实验的关键认知(四)目标指标、驱动指标、护栏指标

设计实验指标,本质上是在设计一个**“制衡系统”**。指标类型时间属性角色口头禅关注点目标指标滞后 (Lagging)老板/股东“赚了多少钱?用户还在吗?长期价值、最终结果驱动指标领先 (Leading)产品/运营“用户点了吗?看完视频了吗?短期反馈、预测未来护栏指标实时/底线运维/风控“App 挂了吗?用户骂娘了吗?风险控制、体验底线一个好的实验设计,必须是:作为领先指标的驱动指标显著正向,作为滞后指标的目标指标稳中有升(或至少不降),而护栏指标风平浪静。

2026-01-21 20:47:02 701

原创 AB实验的关键认知(三)新奇效应 & 改变厌恶

摘要: AB实验中,新奇效应和改变厌恶是影响数据解读的关键因素。新奇效应会导致初期数据虚高(如UI改版初期点击率飙升),而改变厌恶则因用户习惯被打破导致初期数据下跌(如按钮位置调整)。区分二者的核心方法是新老用户分群分析:新用户数据反映策略真实价值,老用户波动则揭示短期干扰。建议延长实验周期(2-4周),结合趋势监控和用户引导(如蒙层提示),避免误判。通过分群矩阵(老用户涨/跌 vs 新用户涨/跌)可精准诊断实验效果,科学决策是否全量上线。

2026-01-21 20:27:41 777

原创 AB实验的关键认知(二)独立同分布

摘要: 独立同分布(i.i.d.)是AB实验的核心假设,包含独立性(样本间互不影响)和同分布(样本来源一致)。 独立性破坏:如网约车补贴实验中,A组司机抢单导致B组接单率下降,违背独立性(SUTVA)。解决方案是时空隔离实验(如分城市或时间片轮转)。 同分布破坏:若分流算法导致A/B组用户属性差异(如早/晚用户),实验结果不可比。需通过哈希取模确保随机分流。 i.i.d.比正态性更重要:正态性可通过中心极限定理修正,但i.i.d.是实验成立的前提,一旦违背,对照组失效,结论无意义。 (字数:149)

2026-01-20 20:25:42 739

原创 AB实验的关键认知(一)正交实验与互斥实验

摘要: AB实验平台的核心挑战在于有限流量与无限实验需求的矛盾。Google提出的分层(Layer)与分域(Domain)架构通过正交实验(不同层实验流量复用)和互斥实验(同层实验流量隔离)解决冲突。例如,电商首页UI改版与推荐算法优化可正交,而同一按钮的多个颜色方案需互斥。父子实验则用于逻辑依赖场景(如新收银台功能下的子实验)。该设计实现流量高效复用,支撑大厂日均上千实验并发。(149字) 关键词: AB实验、流量分层、正交实验、互斥实验、父子实验

2026-01-20 20:14:56 963

原创 AB实验的统计学内核(八):方差陷阱——从自由度到Delta Method

摘要:本文解析AB实验中的两个关键统计学问题。首先,样本方差计算应使用分母n-1(贝塞尔校正),以消除样本均值导致的低估偏差。其次,比率指标(如CTR)的方差计算需采用Delta Method,通过泰勒展开处理非线性关系,并考虑分子分母的协方差影响。文章强调,百万级样本下n与n-1差异虽小,但代码实现需保持数学严谨;而忽略Delta Method会导致比率指标方差严重误估。这两个方法分别解决了估计偏差和复合指标计算问题,是AB实验可靠性的重要保障。(149字)

2026-01-18 23:58:41 674

原创 AB实验的统计学内核(七):统计显著性 vs 业务显著性

摘要: AB实验中常出现统计显著(P值<0.05)但商业价值低(如指标仅提升0.05%)的矛盾。核心原因是大样本下微小差异易被检测为显著,但未必有实际意义。需区分: 统计显著性(P值)验证差异真实性; 业务显著性(效应量)评估差异价值,包括相对提升率(Lift)、绝对增量(Delta)和标准化效应量(Cohen's d)。 决策框架应结合双重门槛: P值<0.05且Lift>ROI盈亏点才上线; 通过置信区间下限(悲观决策)规避风险。

2026-01-18 23:35:37 671

原创 AB实验的统计学内核(六):最小样本量与MDE的博弈

AB实验样本量计算的核心在于平衡成本与准确性。业务方希望减少流量损失,数据科学家则需确保统计功效。样本量由三个关键因素决定:数据波动程度(σ²)、置信度与功效(α和β)以及最小可检测效应(MDE)。其中MDE是核心,检测更小效应会指数级增加样本量。实验前需明确MDE,避免事后调整。正确设定这些参数能确保实验高效可靠,避免资源浪费。

2026-01-16 17:59:52 496

原创 AB实验的统计学内核(五):样本同质性、选择偏差与SRM

摘要: 本文探讨AB实验中随机化(Randomization)的核心作用及样本比例失衡(SRM)的危害。随机化是确保实验组与对照组同质性的关键,为因果推断构建“平行宇宙”。然而,工业实践中分流错误、数据丢失等问题常导致SRM(如预期50:50,实际40:60),引发严重偏差。例如,策略导致部分用户崩溃且数据未上报,造成“幸存者偏差”,使结果失真。检测SRM需优先通过卡方检验验证样本比例(P<0.001即实验失效),而非直接分析业务指标。核心结论:随机化是实验根基,SRM是危险信号,比例失衡时任何统计修

2026-01-16 16:30:08 508

原创 AB实验的统计学内核(四):正态分布的迷思与“定海神针”中心极限定理

不要被“正态分布”吓倒:业务数据的原始分布(长尾、0/1)不影响我们做均值检验。膜拜 CLT:是中心极限定理把杂乱无章的原始数据,在“均值”的维度上规整为了完美的正态分布,让我们有了计算 P 值的标尺。警惕 i.i.d.:做实验时,不要只盯着 P 值看。“我的用户之间互相影响了吗?(独立性)、“我的流量来源稳定吗?(同分布)。这才是导致实验失效的真正元凶。

2026-01-16 15:30:43 788

原创 AB实验提升显著性之杀器(六) 核心指标的“嘴替”:代理指标

摘要:在AB实验中,当核心指标(如购买转化率、留存率)因低频高方差导致样本量不足时,代理指标(Proxy Metrics)可作为解决方案。代理指标需满足高频且与核心指标高度相关(Spearman相关系数>0.8)的条件,如用"加购次数"替代"购买转化率"。但需警惕古德哈特定律:过度优化代理指标可能损害长期价值。实践建议:1)严格验证历史相关性;2)仅用代理指标快速初筛;3)最终决策仍需回归核心指标的非劣性检验。代理指标是效率与准确性的权衡工具,需谨慎使用。

2026-01-16 14:33:11 522

原创 AB实验提升显著性之杀器(五) 精密切割器:分层抽样

AB实验中随机分流可能因小样本导致组间不均,影响结果可靠性。分层抽样通过预先按关键特征(如用户等级)分组,确保实验组和对照组在重要维度上均匀分布,消除结构性噪音。相比事后调整(后分层),事前分层能同时解决偏差和功效问题,尤其适用于小样本或异质性强的场景(如B端业务)。但与CUPED等事后降方差方法不同,分层抽样需工程实现,建议根据场景选择:C端大流量用CUPED,B端小流量必须分层。核心是选取1-2个关键协变量分层,避免过细切割导致样本浪费。

2026-01-16 11:58:51 577

原创 AB实验提升显著性之杀器(四) 噪音屏蔽装置:离群值处理

摘要:本文探讨AB实验中离群值处理的科学方法。长尾分布的离群值会大幅增加方差,淹没真实实验效果。常见错误是直接截断删除高消费用户,这会破坏样本随机性导致SRM问题。正确做法是采用缩尾(Winsorization)技术,将超出99.9%分位数的数值压制到边界值,既保留样本又限制破坏力。关键点包括:使用历史数据确定固定阈值、避免实验期内计算分位数、与CUPED方法组合使用。相比截断法,缩尾能降低20-50%方差,同时保持实验可靠性,是处理离群值的最佳实践。

2026-01-16 11:15:30 605

原创 AB实验的统计学内核(三):一类错误与二类错误的生死结

AB实验的本质是在不确定性中寻找确定性,而一类错误(假阳性)与二类错误(假阴性)则是我们必须划定的判罚红线。本文通过四象限真值表,拆解了显著性水平、置信水平、二类错误与统计功效这四个核心概念的数学定义与业务映射。核心在于揭示它们之间的博弈关系:在样本量恒定的前提下,降低误报率必然导致漏报率上升。想要打破这一零和博弈,唯有通过扩大样本量或采用方差缩减(CUPED)等技术手段,才能在控制风险的同时提升实验探测真实收益的能力。

2026-01-15 20:25:16 409

原创 AB实验的统计学内核(二):从P值、置信区间到T检验的工业级解构

摘要: AB实验的核心是通过统计学方法从噪声数据中识别真实效应。P值衡量策略无效假设下观测结果的概率,小于0.05通常认为统计显著。置信区间提供效应量的不确定性范围,与P值互为补充。T检验是互联网AB实验的主力方法,适用于方差未知的场景,通过t统计量评估组间差异。工业界普遍采用T检验(尤其是Welch's变体),因其对样本量和方差假设更稳健。Z检验因需已知总体方差,在实际业务中基本被弃用。大样本下T检验结果趋近Z检验,而小样本或非正态数据需转向非参数方法。

2026-01-15 20:17:53 552

原创 AB实验的统计学内核(一):容易混淆的各种“误差”

本文旨在澄清 AB 实验中容易混淆的统计学基础概念,重点辨析了描述数据个体离散程度的“方差”与“标准差”,描述实验均值抽样精度的“标准误差”(计算 P 值与置信区间的核心),用于 T 检验分母计算的“综合方差”(及其在异方差下的 Welch 公式替代),以及用于回归模型评估的“均方误差”。同时,文章还阐述了总体方差与样本方差的区别及贝塞尔校正(N-1)的意义,帮助工程师在数据探索、假设检验及 CUPED 降噪等不同场景下准确选择和理解统计指标。

2026-01-15 16:47:35 699

原创 如何科学地提升AB实验结果显著性(二)

摘要:本文介绍三种提升实验显著性的进阶方法:1)离群值处理,通过缩尾法(Winsorization)压制极端值对长尾指标的干扰;2)分层抽样,在分流阶段按关键属性分层保证组间结构均衡;3)代理指标,用高频相关指标替代低频核心指标加速决策。这些方法可有效解决长尾干扰、结构性偏差和低频指标等问题,配合CUPED等基础方法能进一步提升实验效率,但需注意代理指标与核心指标的相关性验证。

2026-01-15 16:08:56 607

原创 AB实验提升显著性之杀器(三) 概率转换神器 P2BB

摘要: P2BB(Probability to Be Best)是一种基于贝叶斯推断的指标,用于A/B测试决策,直接量化实验组优于对照组的概率,解决传统P值(如P=0.06时无法拒绝零假设)导致的沟通低效和潜力策略误判问题。其核心是通过后验分布计算实验组均值大于对照组的概率,并借助蒙特卡洛模拟实现工程化计算。P2BB与P值逻辑不同(非互补关系),二者可协同使用:P值保障统计严谨性,P2BB提供直观的胜率评估。决策阈值依业务风险灵活设定(如高风险需P2BB>95%),但需避免过早依赖,建议至少观察7天周

2026-01-14 20:45:17 717

原创 AB实验提升显著性之杀器(二) 实验加速神器 mSPRT

mSPRT:AB实验加速神器 摘要:mSPRT是一种序列概率比检验方法,可解决传统AB测试必须跑满样本量的问题。其核心是通过动态平衡奖励项和惩罚项,在实验过程中持续评估数据显著性,允许在获得足够证据时提前终止实验。该方法包含三大关键设计:1)使用似然比评估效果;2)通过惩罚项防止早期误判;3)设置固定判决阈值。参数设置方面,阈值通常取20(对应α=0.05),τ参数设为预期最小可检测效应。相比传统方法,mSPRT可节省30%-50%样本量,已被Uber、Airbnb等公司广泛采用。

2026-01-14 18:11:47 499

原创 AB实验提升显著性之杀器(一) 方差缩减神器 CUPED

CUPED是一种提升AB实验灵敏度的算法,通过利用实验前的历史数据来消除用户固有差异带来的噪音。其核心公式Y_cuped=Y-θ(X-μ_X)通过回归分析剔除用户历史表现对实验结果的影响,从而降低方差而不改变均值差异。相比双重差分(DID),CUPED能自适应计算最优修正系数θ,避免过度修正。该方法实施成本低,适用于大多数互联网业务场景,可在不增加样本量的情况下显著提升实验效果检测能力,让微小收益也能被准确识别。

2026-01-14 12:16:21 561

原创 如何科学地提升AB实验结果显著性(一)

摘要:本文介绍三种提升AB实验显著性的方法:1)CUPED利用历史数据降噪,可降低20%-50%指标方差;2)序列检验通过动态阈值解决偷看风险,支持快速止损;3)P2BB将统计结果转化为直观概率,辅助边缘实验决策。这些方法分别从数据优化、过程监控和结果解读维度,帮助在合规前提下提升实验效果检测能力,适用于高波动指标、小流量实验及管理层决策等场景。(149字)

2026-01-13 21:43:16 622

原创 数字世界的“指纹”:SHA-256 到底是什么?

全称是(安全哈希算法 256 位)。听起来很复杂,但你可以把它想象成一台**“数字碎纸机”或者一个“魔法搅拌机”**。无论你扔进去什么东西——是一句简单的“你好”,还是一部几十 GB 的 4K 电影,甚至是一整套大英百科全书——经过 SHA-256 的搅拌,它最终都会吐出一串长度固定、由 64 个字符组成的乱码。这串乱码,就是原始数据的**“数字指纹”**(Hash 值)。

2025-12-04 11:55:32 475

原创 M2电脑build sbt 0.13.18

据搜索了解到新版的M2芯片缺乏x86_64环境,可看文章:https://www.zhihu.com/tardis/bd/art/343423267?##最终成功在M2Pro上用0.13.18版本的sbt构建起了我门的老spark项目,嘻嘻。#公司给换置了新的M2pro芯片的mac电脑,作为大数据研发上来自然是先装sbt。##但是安装完之后,~/.sbt/repositories不管怎么调整,都会报错。所以最后我删掉了repositories,不配置镜像源,

2023-05-05 23:10:23 1009

转载 拉链表设计算法

转自https://www.cnblogs.com/zhangchenliang/archive/2012/09/11/2680945.html在企业中,由于有些流水表每日有几千万条记录,数据仓库保存5年数据的话很容易不堪重负,因此可以使用拉链表的算法来节省存储空间。1.采集当日全量数据存储到 ND(当日) 表中。2.可从历史表中取出昨日全量数据存储到 OD(上日数据)表中。3.用ND-O...

2020-05-06 21:29:42 747

原创 VUE嵌套路由导致父组件重复渲染BUG(虚惊一场)

哲神最近在做VUE开发,开发一个模块需要用到嵌套路由,路由如下:{ path: 'dashboard', component: () => import('@/views/dashboard/index'), name: 'dashboard', meta: { title: '数据看板', activeMenuName: 'dashboard', keepAlive: t...

2020-01-19 15:54:20 6398 11

统计学AB实验全流程标准计算工具包:涵盖设计期样本量估算、验证期AA校验与SRM检验、决策期多类型指标统计推断及SQL/Python/Excel工具实现

内容概要:本文档系统介绍了AB实验中统计推断的标准计算工具包,涵盖实验设计期、验证期和决策期的核心计算方法与工具。内容包括最小样本量估算、MDE(最小可检测效应)计算、AA实验校验、SRM(样本比例失衡)检验、方差与标准误计算、假设检验统计量构建以及异常值处理等关键环节。针对不同类型的业务指标(概率类、人均类、非独立复合类),提供了详细的SQL模板、Python脚本和Excel计算器,支持从数据聚合到统计推断的全流程实施。; 适合人群:具备基本统计学知识和数据分析能力的数据分析师、算法工程师、产品经理及运营人员,尤其适用于需要独立开展AB实验并进行科学评估的中初级从业者; 使用场景及目标:①在实验设计阶段合理估算所需样本量与灵敏度;②在实验过程中通过AA实验和SRM检验保障数据质量;③在实验结束后准确执行假设检验、计算P值与置信区间,做出可靠决策;④支持工程化落地,提供可复用的SQL、Python和Excel工具模板; 阅读建议:建议按照“概念层→公式层→工具层”的顺序逐步深入理解,结合附件中的Excel计算器和Python脚本动手实践,重点关注不同类型指标的方差计算差异及Delta Method的应用,确保统计推断结果的准确性。

2026-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除