基础知识需要了解正态分布,T检验值,P-value值,显著性检验等。
下面是代码与注释讲解:
csvpath<-file.choose()
csvpath
df<-read.csv(csvpath,header=T,row.names = 1)
df
x<-as.numeric(df[,1])
y<-as.numeric(df[,2])
x
y
plot(y~x+1)
jhy<-lm(y~1+x) #建立线性回归模型
jhy
xm<-mean(x) #调用mean函数求均值
xm
plot(y~x+1) # 绘制回归线
abline(jhy) #绘制拟合直线
summary(jhy) #统计结果
#> summary(jhy) #统计结果
#Call:
# lm(formula = y ~ 1 + x)
#Residuals:
# Min 1Q Median 3Q Max
#-6.0867 -1.1916 -0.9292 3.7559 4.5430
#Coefficients:
# Estimate Std. Error t value Pr(>|t|)
#(Intercept) 362.2343 590.1104 0.614 0.545
#x 0.9790 0.0418 23.419 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#Residual standard error: 3.523 on 24 degrees of freedom
#Multiple R-squared: 0.9581, Adjusted R-squared: 0.9563
#F-statistic: 548.4 on 1 and 24 DF, p-value: < 2.2e-16
#Call,列出了回归模型的公式。
#Residuals,列出了残差的最小值点,1/4分位点,中位数点,3/4分位点,最大值点。
#Coefficients,表示参数估计的计算结果。
#Estimate,为参数估计列。Intercept行表示常数参数a的估计值 ,x行表示自变量x的参数b的估计值。
#Std. Error,为参数的标准差,sd(a), sd(b)
#t value,为t值,为T检验的值
#Pr(>|t|) ,表示P-value值,用于T检验判定,匹配显著性标记
#显著性标记,***为非常显著,**为高度显著, **为显著,·为不太显著,没有记号为不显著。
#Residual standard error,表示残差的标准差,自由度为n-2。
#Multiple R-squared,为相关系数R^2的检验,越接近1则越显著。
#Adjusted R-squared,为相关系数的修正系数,解决多元回归自变量越多,判定系数R^2越大的问题。
#F-statistic,表示F统计量,自由度为(1,n-2),p-value:用于F检验判定,匹配显著性标记。
residuals<-residuals(jhy) #计算残差
residuals
shapiro.test(residuals) #正态分布检验
plot(residuals) #画出残差图
plot(jhy)
wmj<-df[c(7,11,19),] #查看第7,9,11列数据 因为这几列在几个图中同时出现
wmj
df2<-df[-c(7,11,19),] #去掉第7,9,11列数据
df2
x2<-as.numeric(df2[,1]) #重新建立回归建模和显著性检验
y2<-as.numeric(df2[,2])
lm.ab2<-lm(y2 ~ 1+x2)
summary(lm.ab2)
new<-data.frame(x=15440) #设置值
new
lm.pred<-predict(lm.ab2,new,interval="prediction",level=0.95) #对设置的值进行预测
lm.pred
以上为记录