一些做法:
将样本分为两类,50样本,5000predictors,找到100个predictors和Y相关性最大的变量。然后用CV的方法预测一个logistic模型。
问题:会存在Spurious Correlation。第一轮选的变量可能和Y是伪相关的,但是在第二轮肯定会有更高的预测率。
population -> data -> estimation -> sampling distribution -> test/CI/PI
bootstrap:把data当作分布,一次一次从里面抽,得到一个empirical distribution
pearson correlation:样本空间上T(x1-mean(x),x2-mean(x),…,xn-mean(x))和T(Y1-mean(Y),Y2-mean(Y),…,Yn-mean(Y))的夹角余弦
inference的目的:
估计是用当前数据来估的
hierarchy principal
异方差解决办法:取对数
x不奇怪 y奇怪:outline
x奇怪:high leverage 影响更大
用leverage statistics评估
X具有相关性:corraletion matrix
R square很大 但是许多系数很低就可能有
VIF-variance inflation factor
线性函数加一个分布函数 肯定在【0,1】之间
probit:正态分布
logistic:logistic分布
dummy variable:model.matrix
X无相关性 可否一个一个检测:不可以
type 1 error: α \alpha α
每一个变量的error是 α \alpha α,那么整个的type 1 error是 1 − ( 1 − α ) P 1-(1-\alpha)^P 1−(1−α)P
另外可能每一个影响都很小,但是叠加的影响可能很大、
multivariate test is more powerful than separately univariate test
multivariate test mu on μ \mu μ with Σ \Sigma Σ know ~多元正态分布
KaTeX parse error: Can't use function '\~' in math mode at position 44: …bar y - \mu ) \̲~̲ N_P(0,I_p)
KaTeX parse error: Can't use function '\~' in math mode at position 5: z_i \̲~̲ N(0,1)
KaTeX parse error: Can't use function '\~' in math mode at position 12: \sum z_j^2 \̲~̲ X^2(P)
KaTeX parse error: Can't use function '\~' in math mode at position 57: …(\bar y - \mu) \̲~̲ X^2(P)
拒绝域: Z > X σ 2 ( P ) Z>X^2_\sigma (P) Z>Xσ2(P)
p比较小的时候,减小 α \alpha α 也阔以
考虑椭圆方框强调内容,相关性越高,椭圆越扁,单变量检验error的可能性越高
multivariate test mu on μ \mu μ with Σ \Sigma Σ unknow :hotelling’s T 2 T^2 T2(n>p)
KaTeX parse error: Can't use function '\~' in math mode at position 49: …(\bar y-\mu_0) \̲~̲ T^2
n − p p ( n − 1 ) T 2 ( p , n − 1 ) = F ( p , n − p ) \frac{n-p}{p(n-1)} T^2(p,n-1) = F(p,n-p) p(n−1)n−pT2(p,n−1)=F(p,n−p)
R 2 R^2 R2解释了X能在多大程度上解释Y
越接近1越好
logistic regression
p ( x ) = e β 0 + β 1 x 1 + e β 0 + β 1 x p(x)=\frac{e^{\beta_0+\beta_1x}}{1+e^{\beta_0+\beta_1x}} p(x)=1+eβ0+β1xeβ0+β1x
l o g ( p ( x ) 1 + p ( x ) ) = β 0 + β 1 x log(\frac{p(x)}{1+p(x)}) = \beta_0+\beta_1x log(1+p(x)p(x))=β0+β1x
优化:MLE
L ( β 0 , β 1 ) = ∏ i p ( x i ) y 1 ( 1 − p ( x i ) ) 1 − y i L(\beta_0,\beta_1)=\prod_i p(x_i)^{y_1}(1-p(x_i))^{1-y_i} L(β0,β1)=i∏p(xi)y1(1−p(xi))1−yi
带入p(x)取对数。
l ( β ) = ∑ i y i β T x i − l o g ( 1 + e β T x i ) l(\beta)= \sum_i y_i\beta^Tx_i - log(1+e^{\beta^Tx_i}) l(β)=i∑yiβTxi−log(1+eβTxi)
FOC:
∂ l ( β ) ∂ β = ∑ i x i ( y i − p ( x i , β ) ) \frac{\partial l(\beta)}{\partial \beta} = \sum_i x_i(y_i-p(x_i,\beta)) ∂β∂l(β)=