自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 CUPED

原理:CUPED(Controlled-experiment Using Pre-Experiment Data)前提假设:E(Xt)−E(Xc)=0E( X ^ {t} ) - E( X ^ {c} ) = 0E(Xt)−E(Xc)=0,即X不会被实验干扰应用场景:方差缩减,小样本量实验。分层变量和连续变量都可以无法使用场景:会影响用户结构的实验,如会拉活实验、影响用户启动的实验,因为用户结构改变后,他们的pre-experiment指标不再是无偏的。因为CUPED的核心假设是E(Xt)−E(Xc)

2022-07-06 23:27:25 563 1

原创 二、树模型(3)

1. GBDT 特征筛选方法https://blog.csdn.net/yangxudong/article/details/53899260

2022-05-22 23:05:22 1191

原创 梯度有关问题

1. 偏导数&方向导数导数是函数随自变量的变化率, 对于一元函数:只有一个自变量x,那么函数y=f(x)的导数是,在某一点处沿x轴正方向的变化率;多元函数:多个自变量,是多维向量,那么函数随自变量的变化怎么刻画呢?一个方法,就是衡量函数在给定方向上的变化率,这就是方向导数。方向导数的特例,就是函数随各个自变量(标量)的变化率,即函数的偏导数,也就是函数沿各个坐标轴正方向的方向导数;对于z=x2+y2z = x^2+y^2z=x2+y2形成的曲面,左图:红线表示fx(x,y)f_x(x,y)f

2022-05-22 22:46:00 260

原创 二、树模型(2)

1. GBDT 梯度提升决策树Gradient boosting和boosting的区别:a) 提升树利用加法模型和前向分步算法实现学习的优化过程。当损失函数时平方损失和指数损失函数时,每一步的优化很简单,如平方损失函数学习残差回归树。b) 但对于一般的损失函数,往往每一步优化没那么容易,如绝对值损失函数。针对这一问题,Freidman提出了梯度提升算法:利用最速下降的近似方法,即利用损失函数的负梯度在当前模型的值,作为回归问题中提升树算法的残差的近似值,拟合一个回归树。(注:与其说负梯度作为残差的

2022-05-08 20:06:30 447

原创 二、树模型

1. 决策树1.1 信息增益**熵:**衡量不确定程度。熵越大,随机变量不确定性越大。熵只依赖于随机变量X的分布,与X的取值无关。H(p)=−∑inpilog(pi)H(p) = -\sum_i^n p_i log(p_i)H(p)=−i∑n​pi​log(pi​)当随机变量只有两个值0,1的时候,P(X=1)=p;P(X=0)=1−p;0≤p≤1P(X=1)=p; P(X=0)=1-p; 0 \leq p \leq 1P(X=1)=p;P(X=0)=1−p;0≤p≤1H(0)=−[plog(

2022-05-08 15:35:08 554

原创 一、模型评估和选择

1.模型评估和选择1.1 损失函数**对数似然损失(log-likehood loss):**也称逻辑斯谛回归似然损失(logistic loss),或交叉熵损失(cross-entropy)。最小化对数似然损失等价于最大化分类器准确度,因此常用于logistic regression和神经网络。对数似然损失函数公式(二分类问题简化):L(Y,P(Y∣X))=−1N∑i=1N[yilog(pi)+(1−yi)log∗(1−pi)]L(Y,P(Y|X)) = - \frac {1}{N} \sum_

2022-05-04 22:17:18 112

原创 GMM广义矩估计

1.矩估计矩估计是什么呢?简单的说,就是用样本矩代替总体矩进行统计推断的方法。一个最基础的例子是正态总体的参数估计问题。如果Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)Xi​∼N(μ,σ2),如何估计μ\muμ和σ2\sigma^2σ2呢? 统计学一般会介绍两种估计方法:极大似然估计和矩估计。总体矩条件:μ=E(x)\mu = E(x)μ=E(x) ; σ2=E(x2)−μ2\sigma^2 = E(x^2)- \mu^2σ2=E(x2)−μ2样本矩条件:μ^=1N∑i=1N

2022-01-25 14:52:17 4431

原创 Double Machine Learning

从线性回归说起从观测数据获得因果效应的一个简单方式是使用线性回归,控制confounders的影响:Salesi=α+τPircei+β1tempi+β2Costi+β3Weekdayi+eiSales_i = \alpha+\tau Pirce_i+\beta_1 temp_i+\beta_2 Cost_i+\beta_3 Weekday_i+e_iSalesi​=α+τPircei​+β1​tempi​+β2​Costi​+β3​Weekdayi​+ei​τ\tauτ是我们唯一需要关注的,因为τ\

2022-01-16 17:44:35 1830 1

原创 因果推断理论框架 Potenial Outcomes Framework

1.Potenial Outcomes Framework定义:XXX: 协变量TTT:T=1干预组,T=0对照组YYY:observed outcome观测结果Y0,Y1Y_0,Y_1Y0​,Y1​:potential outcome潜在结果,如果接受干预T=1或者T=0时的潜在结果E(Y0),E(Y1)\mathbb{E}(Y_0),\mathbb{E}(Y_1)E(Y0​),E(Y1​):潜在结果的均值,如果所有人接受干预T=1(或者T=0)的均值ATE(average causal t

2022-01-15 23:14:37 1187

原创 工具变量&两阶段最小二乘

为什么要用工具变量解决内生性问题,自变量x1x_1x1​与残差μ\muμ相关,即COV(x1,μ)≠0COV(x_1,\mu) \neq 0COV(x1​,μ)​=0y=β0+β1x1+μ y = \beta_0+\beta_1x_1+\muy=β0​+β1​x1​+μx1x_1x1​变化时,随机扰动项也会变化,导致估计值β1^\hat{\beta_1}β1​^​偏离真实值ΔyΔx+Δμ=β1\frac {\Delta y} {\Delta x+\Delta \mu}=\beta_1 Δx+ΔμΔ

2022-01-15 22:11:50 1547

原创 Uplift Model

0.uplift modelling相关理论定义:τ(x)=E[Yi(1)∣X]−E[Yi(0)∣X]\tau(x) = E[Y_i(1)|X]-E[Y_i(0)|X]τ(x)=E[Yi​(1)∣X]−E[Yi​(0)∣X],单个样本在有干预和没有干预两种情况的表现(potential outcome)的差值目标:识别出营销敏感人群挑战:无法同时观测单个样本在有干预和没有干预两种情况的表现理论依据:当CIA假设成立时(Xi⊥TiX_i \bot T_iXi​⊥Ti​,样本特征X和T独立),ATE=

2022-01-15 21:55:33 487

原创 逆概率加权&Doubly Robust Methods

为什么要用逆概率加权逆概率加权是debias一种方法,可以用于纠正样本分布不均衡导致的辛普森悖论等问题。逆概率加权推导逆概率加权是后门调整的进一步推广,利用贝叶斯公式对后门调整公式变换了一下形式。P(y∣do(t))=∑xP(y∣t,x)∗P(x)‾=∑xP(y∣t,x)∗P(x)∗P(t∣x)P(t∣x)=∑xP(y,t,x)P(t∣x)\begin{aligned} P(y|do(t)) &= \sum_x P(y|t,x)*\underline {P(x)} \\&=

2022-01-13 17:49:34 6789 1

原创 因果图—后门准则

1.贝叶斯网络概率图1.1 链式法则P(x1,x2,⋯ ,xn)=∏i=1nP(xi∣x1,x2⋯xi−1)P(x_1,x_2,\cdots,x_n) = \prod_{i=1}^n P(x_i|x_1,x_2 \cdots x_{i-1}) P(x1​,x2​,⋯,xn​)=i=1∏n​P(xi​∣x1​,x2​⋯xi−1​)举例:P(x1,x2,x3,x4)=P(x1)∗P(x2∣x1)∗P(x3∣x1,x2)∗P(x4∣x1,x2,x3)P(x_1,x_2,x_3,x_4) = P(x_1)*P

2022-01-13 11:27:31 1268

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除