R语言学习-线性回归

线性回归中模型选择的几个度量指标。

1,R square统计量:度量回归模型的方差可解释部分。注意,只有往模型里面增加特征,就能够增加R square 统计量。

2,F统计量:测试回归模型的整体显著性。如果F统计量较大,就可以拒绝所有系数为0的空假设。

3,adjusted R square 统计量。对增加了R square 惩罚,当模型中特征较多时,做一个惩罚。

4,Cp统计量:假定总共有K个特征。用其中的p个特征拟合模型,如果这p个特征足够解释这个模型,那么Cp统计量的值应该为p+1,如果这p个统计量不能解释这个模型,那么Cp应该大于p+1(一般是远大于)。所以可以用这个策略来拟合模型:令p=1……K,分别计算每个模型的Cp值,在p个特征的模型中,我们选择具有较小Cp值的模型。注意,当p=K时,Cp的值等于K+1。一般来说,我们尽量选择使得Cp近似于p+1的模型。

5,残差图。横坐标为拟合值,纵坐标为预测值,可以通过残差图来看拟合是否均匀。也可以通过直方图来看。



局部线性回归的要点

1,局部线性回归核函数的选择。有Epanechnikov函数,高斯函数,矩形函数等。

2,拟合窗口h的选择。h控制着拟合光滑的程度,一般来说,最好是让h随着x的变化而变化。比如最近邻选择(窗口的大小一定要包含K个点)

3,generalized cross validation。来验证局部线性回归的误差率。画一个GCV与df的对比图,选择GCV最小的那个df作为参数。

4,Cp统计量。画一个Cp和自由度对比的图,使Cp约等于自由度的最大的窗口作为选择的窗口h


多重检验的要点。

1,假定我们有100个特征,其中只有5个特征真正的与响应变量相关,95个特征无关。假定显著性水平为0.05。在做一组假设检验的时候,这95个特征中出现显著性水平大于0.05的特征的概率超过50%,因此有必要修改现有的测量方法以降低这种犯错误的概率。

Bonferroni修正差别检验法:调整p值=p/m,其中m表示特征的个数。

下面来介绍另一种方法:

假定有m个特征,m0为无关特征的个数,m-m0为相关特征的个数。V为假阳性个数,T为假阴性个数,U为真阴性个数。


其中R是能观察到的随机变量,而VSUT都是看不到的随机变量。

我们希望错误发现率(false discovery rate,FDA)——E(V/R)不能太高,就是V的个数越低越好。

令alpha为FDA,我们针对每一个特征做t检验,得到m个p值。然后对p排序,找到一个最大的k,满足p<(k/m)alpha。这个K对应的p值就是我们想要的显著性水平。

上述检验是假定特征之间不相干的,相关特征的检验由benjamini和yekutieli于2001年提出。读者可找相应问现场参考之。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值