多元统计笔记

最新推荐文章于 2022-09-01 19:35:44 发布

liuyanlin0102

最新推荐文章于 2022-09-01 19:35:44 发布

阅读量475

点赞数

分类专栏：上课笔记文章标签：多元统计

本文链接：https://blog.csdn.net/liuyanlin0102/article/details/79474954

版权

这篇博客探讨了多元统计分析中的方法和问题，包括变量选择、相关性分析、泊松回归、逻辑回归、判别分析、线性模型、主成分分析等。文章提到了Spurious Correlation的问题，并介绍了Bootstrap方法、相关性度量、多元检验以及模型评估指标如ROC曲线和R方。此外，还讨论了缺失值处理、重抽样技术和支持向量机等概念。

摘要由CSDN通过智能技术生成

一些做法：
将样本分为两类，50样本，5000predictors，找到100个predictors和Y相关性最大的变量。然后用CV的方法预测一个logistic模型。
问题：会存在Spurious Correlation。第一轮选的变量可能和Y是伪相关的，但是在第二轮肯定会有更高的预测率。

population -> data -> estimation -> sampling distribution -> test/CI/PI
bootstrap:把data当作分布，一次一次从里面抽，得到一个empirical distribution

pearson correlation：样本空间上T（x1-mean（x），x2-mean（x），…，xn-mean（x））和T（Y1-mean（Y），Y2-mean（Y），…，Yn-mean（Y））的夹角余弦

inference的目的：
估计是用当前数据来估的

hierarchy principal
异方差解决办法：取对数
x不奇怪 y奇怪：outline
x奇怪：high leverage 影响更大
用leverage statistics评估

X具有相关性：corraletion matrix
R square很大但是许多系数很低就可能有
VIF-variance inflation factor

线性函数加一个分布函数肯定在【0，1】之间
probit：正态分布
logistic：logistic分布

dummy variable:model.matrix

X无相关性可否一个一个检测：不可以
type 1 error： $\alpha$
每一个变量的error是 $\alpha$ ，那么整个的type 1 error是 $1-(1-\alpha)^P$
另外可能每一个影响都很小，但是叠加的影响可能很大、
multivariate test is more powerful than separately univariate test

multivariate test mu on $\mu$ with $\Sigma$ know ~多元正态分布
$KaTeX parse error: Can't use function '\~' in math mode at position 44: …bar y - \mu ) \̲~̲ N_P(0,I_p)$

$KaTeX parse error: Can't use function '\~' in math mode at position 5: z_i \̲~̲ N(0,1)$

$KaTeX parse error: Can't use function '\~' in math mode at position 12: \sum z_j^2 \̲~̲ X^2(P)$

$KaTeX parse error: Can't use function '\~' in math mode at position 57: …(\bar y - \mu) \̲~̲ X^2(P)$

拒绝域： $Z>X^2_\sigma (P)$

p比较小的时候，减小 $\alpha$ 也阔以
考虑椭圆方框强调内容，相关性越高，椭圆越扁，单变量检验error的可能性越高

multivariate test mu on $\mu$ with $\Sigma$ unknow ：hotelling’s $T^2$ (n>p)

$KaTeX parse error: Can't use function '\~' in math mode at position 49: …(\bar y-\mu_0) \̲~̲ T^2$
$\frac{n-p}{p(n-1)} T^2(p,n-1) = F(p,n-p)$

$R^2$ 解释了X能在多大程度上解释Y
越接近1越好
logistic regression

$p(x)=\frac{e^{\beta_0+\beta_1x}}{1+e^{\beta_0+\beta_1x}}$

$log(\frac{p(x)}{1+p(x)}) = \beta_0+\beta_1x$

优化:MLE

$L(\beta_0,\beta_1)=\prod_i p(x_i)^{y_1}(1-p(x_i))^{1-y_i}$

带入p（x）取对数。

$l(\beta)= \sum_i y_i\beta^Tx_i - log(1+e^{\beta^Tx_i})$

FOC:
$\frac{\partial l(\beta)}{\partial \beta} = \sum_i x_i(y_i-p(x_i,\beta))$

最低0.47元/天解锁文章

liuyanlin0102

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
多元统计笔记

一些做法：将样本分为两类，50样本，5000predictors，找到100个predictors和Y相关性最大的变量。然后用CV的方法预测一个logistic模型。问题：会存在Spurious Correlation。第一轮选的变量可能和Y是伪相关的，但是在第二轮肯定会有更高的预测率。population -&amp;amp;gt; data -&amp;amp;gt; estimation -&amp;amp;gt; s...
复制链接

扫一扫

专栏目录