线性回归（课堂记录）

白衣怀歌

已于 2022-11-05 16:37:51 修改

阅读量1.4k

点赞数

文章标签： r语言线性回归

于 2022-10-29 17:16:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55850820/article/details/127587139

版权

第一节课（2022.10.29）

线性回归

（1）线性

（2）残差是否符合正态（均值=0）

违反独立性原则：两个变量存在相关性。。以及伪重复实验，大多时候也是违反了独立性原则

方差不齐——本来显著的关系，做出来结果显示不显著

残差分布不正态，增大犯一类错误的可能性：本来无统计格局，统计显示出了显著性格局

拟合曲线是否具有趋势

检验残差——QQnorm残差图

方差齐性的重要性

数据分布呈喇叭形：左侧-20到20，右侧-50到50，典型的方差不齐，不能贸然使用参数检验

很多时候数据方差不齐是内在属性导致的

画个直方图检验数据正态性，方差齐性——想办法转换，或者使用广义线性回归

残差正态不好时转换

残差正态性不好，log/开根号/标准化等来解决

先做一个概率分布直方图，预想转换后可能的数据分布，考虑使用的转换方式

左侧典型的泊松分布，除了使用ln转换，也可以套用广义线性模型里面的泊松分布

（1）lg转换适用于生态学的生物量等——即本身数据横跨多个数量级（0.01g和10g），降量纲和维度

（2）开根号，左侧点比较多，右侧点少

（3）平方转换

转换之后相应的解释也发生变化

标准化转换scale，均值为0，方差为1，不可以转换得到原方程。其余的lg、ln、次方、根号可以得到方程

两个变量之间存在交互效应

x1和x2对y交互产生显著影响，就必须把x1、x2单独对y主效应必须放在一个最佳模型里面，更好地解释交互效应

两个变量的贡献性，自相关关系

皮尔逊相关系数、斯皮尔曼相关系数，相关性本身也是样本量n的相关系数，样本量越多越不容易得到一个相关（人为定的P=0.7，r2=0.49）

奥德姆剃须刀原则（最吝啬法则）：如无必要，勿增实体（引入变量越少越好）

好多种可选路径，默认最简单最高效的方式——简化模型，R2虽然有所损失，但可以把无关变量删除，得出一个简洁的拟合公式。

目录

方差齐性的重要性

残差正态不好时转换

为什么筛选简化模型

广义线性回归

混合效应模型

第二节课（2022.11.5）

常用随机截距模型

随机斜率和截距模型

为什么筛选简化模型

（1）容易过度拟合overfit，形成不符合认知的结论（两个变量高度自相关）

（2）提供无效的重复信息

→获得性价比更高的模型，花最少的自变量，获得更大的R2，更好的拟合优度。

最大模型：考虑所有的变量，拟合的R2比较高（预测随机数，随机森林，进行迭代拟合）

e.g. 蚂蚁的草食性研究，全球数据所有变量（土壤、气候、水肥气热）全部拟合，就可以预测哪些地方食草性高

最少模型：R2略低于最大模型，拟合优度略微降低，但其参数个数往往大幅少于最大模型。即性价比比较高

零模型：评判全面最佳模型拟合出来的结果是否有用。零模型AIC值小于最佳模型，还没有无变量的影响显著，最佳模型无意义。（多自变量数据，使用AIC进行多模型推断）

n是样本量，SSerror是误差平方和，P是参数个数

固定样本量n，AIC随着误差平方和与自变量变化，AIC越小越好。两个模型之间差异不超过2，不能评价两个的好坏

step()傻瓜式路径依赖

广义的正态分布就是高斯分布

狭义的标准的正态分布：均值为0，方差为1（特指）

逻辑斯蒂模型（a/b出现在指数项上）

狗的年龄和死亡

logistic转换存活的比例数据会较为完美地贴合这条曲线。

广义线性回归

与线性回归区别：

（1）函数名称lmer、glmer

（2）不同误差分布族

不要误差分布族，拟合model，比较不同的AIC

（3）线性公式变化

把中间部分转换(log等)，再代入到线性公式

所谓的广义线性回归就是能够转化为线性回归的非线性回归

在R里面有根据右侧进行公式转换

混合效应模型

多水平模型/多层次模型/混合效应模型

最大似然法：赋予不同的权重

神枪手爷爷带孙子去森林，枪响鸟落，0.03的概率是孙子打的（随机因素）

处理一些日常不独立、不好处理的数据

混合，包括固定效应和随机效应（随机效应解决自相关问题）

嵌套、假重复

时间自相关（重复测量）：施肥，不同月份测株高；不同批次

空间自相关：某一地区很多样点

e.g. 降水对生物量距离越接近，植被物种越接近，甘南这一块不仅降水丰富，物种也丰富，出现正相关。——并不是降水导致了生物量增加，而是空间自相关导致两者之间出现相关

应该——改变降水（降水梯度），比较生物量的相关关系

又如，村庄里面的牛数量和村庄新生小孩数量——暗含村庄规模，规模越大，牛越多，孩子新生也多。相关不代表二者之间存在因果关系。

系统发育自相关：e.g. 增温是否会对不同草的株高产生影响——内蒙显著影响，西藏高原不显著

可能原因，内蒙的禾草居多响应增温

系统发育矩阵，来降低系统发育相近物种的比重（三个禾本科、一个菊科、一个豆科）

第二节课（2022.11.5）

固定效应

（1）我们感兴趣的

（2）这个如何影响因变量y，我们感兴趣

（3）科学问题感兴趣

（4）可以量化，这个效应值

随机效应

（1）标签具有可交换性（A,B,C,D）字符型而不是数字型 1,2,3数字型导入时必须as.factor转换为A,B,C

（2）不感兴趣效应值，影响方向，但不得不考虑对因变量y产生影响，须扣除

探究相对海拔高度（NAP）【自变量】与物种丰富度（Richness）【因变量】之间的关系

随机效应【9个site，每个地点5个样点】的Beach

常规解法

（1）complete pooling全部放一起进行线性回归——拟合出来斜率为负（下图）

问题：较多离群点，方差不齐不能说出9个沙滩的情况

（2）No pooling9个地方各自线性回归

问题：每个沙滩的R2比较高，效果比较好，但是拟合出来的线差异较大（斜率、截距）

利用混合效应模型解决：

同一个site的5个点

设置随机截距，公式如上，αj为调整项

第一层，传统线性回归格式

第二层，对于截距来说，总体截距μ，再给予一个校正值αj，每个沙滩各有一个，每个沙滩都形成一个不同的截距

每个沙滩组内，样本量越多，估计的斜率截距值就越接近自身结果

截距介于No-pooling（样本点较多）和complete pooling（样本点较少）之间

常用随机截距模型

小的嵌套于大的https://mp.weixin.qq.com/s/2D1PAx9C9ctKk0hJ1Nlm7w

m2<lmer(Richness~1|fBeach),data=RIKZ)

限制性似然最大标准值（REML criterion at convergence） 239.5

ε残差（Scaled residuals）分布特征点到拟合出来的颜色相同的线的垂线段最大，最小，方差

（Fixed efffects）固定效应

截距/斜率估计值分别为 6.5819和-2.5684 与0是否有显著差异

海拔0，随海拔生物量变化是否显著

自由度是小数，，限制性最大似然法本来得出的自由度就是小数

μ总体截距6.48

β总体斜率-2.56

αj，每个沙滩相对于整体的调整值，9个沙滩出现9个调整值

求出9个准确的各自沙滩的截距值

误差ε，不关注，但可以得到参数值，符合均值为0，有确定方差的正态分布

随机截距，拟合出来就是9条平行线——斜率固定为总体斜率，但截距存在调整

黑线即为拟合出来的总体的线，共享斜率 -2.568

左列各自截距，右侧各自斜率

随机斜率模型——物种丰富度不同，各自沙滩丰富度随海拔也在变化

两者之间存在交互效应，就需要随机斜率——随着海拔增加，物种丰富度变化，而这种变化依赖于沙滩

tab_model得出拟合的表格

95%置信区间和0没有交点，结果显著性好

13年日本人Nakagawa给出求解R2的方式

使用函数MuMIn，得出比较关注的固定效应的R2m

R2c肯定大于R2m，因为它是两部分的加和（固定+随机）

下侧

model1 考虑两个随机 species和plot

model0 只考虑plot

anova分析，AIC差异显著则需要考虑species，增加拟合优度

！只有装了lmerTest函数才会对固定效应给予方差分析，得出P值

随机斜率和截距模型

随机效应（不同组）和固定效应（NAP）影响y的时候存在交互

m2<lmer(Richness~NAP|fBeach),data=RIKZ)

截距大的，斜率越负，向左侧汇聚

R2m=0.295，R2c=0.728 70%可以解释这个变化，已经可以了。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
线性回归（课堂记录）

摸鱼式课堂记录
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。