多元统计笔记


一些做法:
将样本分为两类,50样本,5000predictors,找到100个predictors和Y相关性最大的变量。然后用CV的方法预测一个logistic模型。
问题:会存在Spurious Correlation。第一轮选的变量可能和Y是伪相关的,但是在第二轮肯定会有更高的预测率。

population -> data -> estimation -> sampling distribution -> test/CI/PI
bootstrap:把data当作分布,一次一次从里面抽,得到一个empirical distribution

pearson correlation:样本空间上T(x1-mean(x),x2-mean(x),…,xn-mean(x))和T(Y1-mean(Y),Y2-mean(Y),…,Yn-mean(Y))的夹角余弦


inference的目的:
估计是用当前数据来估的

hierarchy principal
异方差解决办法:取对数
x不奇怪 y奇怪:outline
x奇怪:high leverage 影响更大
用leverage statistics评估

X具有相关性:corraletion matrix
R square很大 但是许多系数很低就可能有
VIF-variance inflation factor

线性函数加一个分布函数 肯定在【0,1】之间
probit:正态分布
logistic:logistic分布

dummy variable:model.matrix


X无相关性 可否一个一个检测:不可以
type 1 error: α \alpha α
每一个变量的error是 α \alpha α,那么整个的type 1 error是 1 − ( 1 − α ) P 1-(1-\alpha)^P 1(1α)P
另外可能每一个影响都很小,但是叠加的影响可能很大、
multivariate test is more powerful than separately univariate test

multivariate test mu on μ \mu μ with Σ \Sigma Σ know ~多元正态分布
KaTeX parse error: Can't use function '\~' in math mode at position 44: …bar y - \mu ) \̲~̲ N_P(0,I_p)

KaTeX parse error: Can't use function '\~' in math mode at position 5: z_i \̲~̲ N(0,1)

KaTeX parse error: Can't use function '\~' in math mode at position 12: \sum z_j^2 \̲~̲ X^2(P)

KaTeX parse error: Can't use function '\~' in math mode at position 57: …(\bar y - \mu) \̲~̲ X^2(P)

拒绝域: Z > X σ 2 ( P ) Z>X^2_\sigma (P) Z>Xσ2(P)

p比较小的时候,减小 α \alpha α 也阔以
考虑椭圆方框强调内容,相关性越高,椭圆越扁,单变量检验error的可能性越高

multivariate test mu on μ \mu μ with Σ \Sigma Σ unknow :hotelling’s T 2 T^2 T2(n>p)

KaTeX parse error: Can't use function '\~' in math mode at position 49: …(\bar y-\mu_0) \̲~̲ T^2
n − p p ( n − 1 ) T 2 ( p , n − 1 ) = F ( p , n − p ) \frac{n-p}{p(n-1)} T^2(p,n-1) = F(p,n-p) p(n1)npT2(p,n1)=F(p,np)


R 2 R^2 R2解释了X能在多大程度上解释Y
越接近1越好
logistic regression

p ( x ) = e β 0 + β 1 x 1 + e β 0 + β 1 x p(x)=\frac{e^{\beta_0+\beta_1x}}{1+e^{\beta_0+\beta_1x}} p(x)=1+eβ0+β1xeβ0+β1x

l o g ( p ( x ) 1 + p ( x ) ) = β 0 + β 1 x log(\frac{p(x)}{1+p(x)}) = \beta_0+\beta_1x log(1+p(x)p(x))=β0+β1x

优化:MLE

L ( β 0 , β 1 ) = ∏ i p ( x i ) y 1 ( 1 − p ( x i ) ) 1 − y i L(\beta_0,\beta_1)=\prod_i p(x_i)^{y_1}(1-p(x_i))^{1-y_i} L(β0,β1)=ip(xi)y1(1p(xi))1yi

带入p(x)取对数。

l ( β ) = ∑ i y i β T x i − l o g ( 1 + e β T x i ) l(\beta)= \sum_i y_i\beta^Tx_i - log(1+e^{\beta^Tx_i}) l(β)=iyiβTxilog(1+eβTxi)

FOC:
∂ l ( β ) ∂ β = ∑ i x i ( y i − p ( x i , β ) ) \frac{\partial l(\beta)}{\partial \beta} = \sum_i x_i(y_i-p(x_i,\beta)) βl(β)=

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值