下面内容主要来自统计课的ppt,觉得还不错,便修改后转载至我的blog啦
目的是让自己消化一遍信息,基于自己的一些已有知识做了一些修改,也希望能给有需要的朋友们看到。
- 比较组间差异的注意事项:
1.1 在对数据做简单的组间比较时,得到的差异不一定真实存在。
1.2 多组比较时,不可直接进行两两比较,需要通过。beferonni矫正来缩小阈P值,降低一类错误的概率。
1.3 若是配对资料,需要做配对的统计方法。 - 变量间的相关性分析
2.1 个人认为这一步如果是为了探索变量间共线性会更有意义,因为上一步的多组比较若存在差异已可以提示各协变量与自变量之间的相关性。 - 多因素分析
3.1 目的是建立一个解释模型,纳入合理的混杂因素,同时保证模型的可靠性,对相关性进行探索。
3.2 多元线性回归,logistic逐步回归,Cox回归。 - 多因素回归对数据的要求
4.1 样本例数至少为变量数的10-15倍。如果是线性回归,这里的样本例数指的就是样本量;若为logistics回归或Cox回归,样本例数指的是发生目标结局的例数。设置哑变量后,自变量数会增加,此时应该根据设置哑变量后的变量数来计算样本例数。
4.2 数据不能有Na
4.3 对分类变量需要进行恰当编码和哑变量设置。
4.3.1 对于二分类变量,如性别,可以设置男性为1 女性为0
4.3.2 对于多分类有序变量,应按序赋值后当连续变量用(死亡0、有效1、痊愈2),但需符合LINE:或者转为哑变量
4.3.3 对于多分类无序变量,设哑变量。
经验法判断偏态、方差不齐
正态者:一般mean >3SD
S> mean 必为偏态
一些模型参数的判读
- R平方(R2),是预测变量能解释结果变量变异的百分比例,范围为0到1。R2是观察到的实际结果与模型构建的预测值之间的相关系数的平方。R平方越高,模型越好。模型的决定系数=0.294:
校正决定系数Rad2=0.256即甘油三酯与总胆固醇一起决定了空腹血糖Y变异的25.6%. - F值:对整个方程作统计意义检验,判断是否Xi,一Xk与y有数量关系,即检验无效假设。
模型有意义(F=7.694,P=0.002)·P<0.05, - 偏回归系数 partial regression coefficient/coefficients:
偏回归系数是多元回归问题出现的一个特殊性质。设自变量x1,x2,…,xm与因变量y都具有线性关系,可建立回归方程:ŷ=b0+b1x1+b2x2+…+bmxm。式中b1,b2,…,bm为相应于各自变量的偏回归系数。表示当其他的各自变量都保持一定时,指定的某一自变量每变动一个单位,因变量y增加或减少的数值。
可以对各个偏回归系数进行检验,分别看x对y的影响是否显著。 - 标准化偏回归系数 Standard partial regression coefficient。由于x的单位不同,无法直接用偏回归系数比较各x的重要性,故对偏回归系数进行标准化,去掉单位。
最优回归方程选择
选择 Radj2最大的:反映了模型拟合度,也综合考虑了进入模型的自变量个数(自变量个数并非越多越好)
进入方程的自变量个数越多,R2必然越大,而adjR2反而变小
模型假定:LINE原则
- line 线性
- independence 独立
- normality 正态
- equal variance 方差齐
- L 线性:
可以通过绘制x和y之间的散点图来进行评估 - I 无共线性:
进行共线性诊断,如制作变量间相关性矩阵后,对存在共线性的变量对进行留一取一处理,或者对一组多重共线性的变量进行合并处理。 共线性的处理方法并不唯一,选择合理的, 更容易实现批处理的为妙。 - N 残差满足正态分布。
残差在数理统计中是指实际观察值与 **估计值 ( 拟合值 )**之间的差 - E 残差方差相等
这里指的是残差方差相等。可以通过残差图来判断。(即从每个x与残差的散点图看残差的离散是否与各个x无关)
逐步回归与多元回归的区别:
自变量逐步进入模型,基于一些筛选原则筛选对Y作用大的X。比如矫正R2,AIC
多元回归,一次纳入全体自变量,可能会纳入没有意义的X。
需要注意:建立模型时,有些变量的偏回归系数可能没有显著性,但对模型的效能有提升作用。
变量筛选的方法并不止逐步法一个,还是那句话
合理且更容易实现自动化为佳。
交互作用
数据科学就是这样,一开始看文章,觉得这几张表很简单啊,一下子就画出来了,其实背后看不见的分析思路,建模的细节才是大学问。