回归分析学习与思考（2）

幼稚的男孩°

于 2021-03-30 21:34:11 发布

阅读量522

点赞数

文章标签：数据分析

本文链接：https://blog.csdn.net/qq_44500040/article/details/115336603

版权

课本上的东西，发不了链接 - - 只能写原创了

先画散点图看看大概的模型plot(x,y)
参数估计：最小二乘法
显著性检验：对参数进行t检验，对回归方程进行F检验，相关系数检验R-square
参数区间估计：beta.int(B)函数
回归函数：B<-lm(y~x+I(x^2),data=A)
summary (B)：提取模型详细信息
预测：predict(B) 或者predict(B,data)
abline(B)画出拟合线
残差，查看残差图：residuals(B) ,plot(residuals(B)~predict(B))
标准残差和图：rstandard(B) ,plot(rstandard(B)~predict(B))
来判断残差是不是服从标准正太分布，以及去除异常点，去除之后再进行一次回归
控制：已知y在某区间，求x的范围
deviance(B) 残差平方和:这个值越小说明拟合的越好，一般用在增删变量修改模型时，总的数据量没变，但残差平方和在变,可以用到多元里。

多元：
散点图：可以画出y与各个分量的散点图来判断互相的关系
C<-step(B)
summary©
drop1©
deviance(B) 残差平方和:这个值越小说明拟合的越好，一般用在增删变量修改模型时，总的数据量没变，但残差平方和在变

回归诊断：
（1）一定要结合散点图来看，因为有的时候拟合都通过了检验，但散点图却不是线性的

在这里插入图片描述

（2）残差与标准化残差

如果假设正确（残差有高斯-马尔科夫性），标准化残差服从标准正态分布，则标准残差图中应该有95%以上的点落在[-2,2]之间，2表示2倍的标准差（标准态分布是1），所以可以通过观察标准残差图判断模型是不是有问题
（3）QQ图：检验残差的正态性
（4）影响分析：
1帽子矩阵来区分异常值，即单体影响比别的值要大
hatvalues(B),如果 h_ii<2(p+1)/n 可以认为第i个数据影响比较大
hat(A),A是数据集
abline(h=2(p+1)/n) #画处那条横线，如果没显示可以算一下值
2 DFFIT准则
dffits(B)

		d_i>√(2(p+1)/n)   就认为第i个数据异常
		
	回归诊断函数Reg_Diag()
	3cookie_distance
		这个判定法想找个异常值的临界值很困难
	4 covratio

在这里插入图片描述
5 Reg_Diag(B)
直接计算七个统计量，包括残差，标准化残差，学生矩阵，帽子矩阵，DFFITS矩阵，cookie_distance，covratio

（6）多重共线性
kappa(B)
k<100 共线性程度很小
k<1000 中等，较强多重共线性
k>1000 严重多重贡献

eigen(B) 求出X^T X的特征值和特征向量
在这里插入图片描述
X^T X的特征根和特征向量满足 X^T Xφ=λφ
λ约等于0，所以λφ 约等于0，左边的乘积结果是个向量，所以向量的所有分量约等于0,式子（6.48）就是X^T X的第i个元素(x1,x2,x3,x4,x5,x6)（行向量）乘以φ（列向量）
共线性可以通过以上式子将其中一个替换掉。

修改模型：lny,sqrt(y),exp(y),也可以给X变换，具体怎么换要看情况，哪种拟合最好用哪种。

非线性常见模型：
在这里插入图片描述
有的时候还可以将自变量分段，但是自变量太多的话，有可能要分段的就很多，这样一来就很麻烦

实际情况要多做几个模型，相互比较，选一个比较好的

幼稚的男孩°

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
回归分析学习与思考（2）

课本上的东西，发不了链接 - - 只能写原创了先画散点图看看大概的模型plot(x,y)参数估计：最小二乘法显著性检验：对参数进行t检验，对回归方程进行F检验，相关系数检验R-square参数区间估计：beta.int(B)函数回归函数：B<-lm(y~x+I(x^2),data=A)summary (B)：提取模型详细信息预测：predict(B) 或者predict(B,data)abline(B)画出拟合线残差，查看残差图：residuals(B) ,plot(residu
复制链接

扫一扫