统计学中的线性回归

最新推荐文章于 2024-06-01 00:15:00 发布

YJ语

最新推荐文章于 2024-06-01 00:15:00 发布

阅读量1.3k

点赞数

分类专栏： # 统计学

本文链接：https://blog.csdn.net/The_dream1/article/details/117201309

版权

统计学专栏收录该内容

15 篇文章 4 订阅

订阅专栏

本文详细介绍了线性回归的基本概念，包括简单线性回归和多元线性回归。讨论了如何使用最小二乘法求解模型参数以及通过判定系数R^2来评估模型的优劣。同时，提到了R^2的局限性和解决多重共线性问题的方法，并简要概述了常见的概率分布类型。

摘要由CSDN通过智能技术生成

1 线性回归的基本假设

参考：https://blog.csdn.net/Noob_daniel/article/details/76087829

2 线性回归

2.1 简单线性回归

2.1.1 简单线性回归模型

在这里插入图片描述

2.1.2 线性回归图像

在这里插入图片描述

2.1.3 如何求模型的参数呢？— 最小二乘法

在这里插入图片描述

2.1.4 如何评估模型的好坏呢？–判定系数 r^2

在这里插入图片描述

- 范围在0~1之间，越大越好
- 表示的是因变量对自变量的影响程度

r^2

思考：r^2足够去判断线性回归的好坏吗？
答：在统计学的角度下，其实r^{2基本足以来评估模型的好坏。但机器学习的角度下，r}2是不足够的，我们也不会拿r^{2去评估机器学习模型，最主要的原因是机器学习模型很重要的作用是预测未来数据。而r}2是对现有样本的拟合程度的度量。现有样本拟合的非常好，不代表对未来数据就拟合的很好。

2.2 多元线性回归

2.2.1 多元线性回归定义

2.2.2 多元线性回归参数求解

- 本质上还是最小二乘法，但是涉及了梯度下降

2.2.3 多元判定系数 R^2

在这里插入图片描述

- R^2 范围在（0，1），越大越好，表示的是因变量对自变量的影响程度

2.2.4 线性回归中，如何提高R^2？

自变量个数？高度共线性？

2.3 R^2和p值

R^2可以量化模型自变量与因变量间的关系强弱
p-value检验可以决定拟合方程的可靠程度。
（这里通过F检验中的F值，然后求解p值）

2.4 多重共线性问题

检测：
- 具体字段利用相关系数判断，相关系数>0.8，则很可能存多重共线性。（df.corr()）
解决：
- 扩大样本容量：有可能仅仅是当前数据集存在多重共线性
- 把相关系数高的变量去掉

3 常见分布

3.1 连续型随机变量的分布

正态分布
- 正态分布又叫高斯分布，正态分布通过参数平均值和方差确定

3.2 离散型随机变量的分布

0-1分布
- 其实就是最简单的二项分布,就是在二项分布中n=1.
  -
二项分布
- 有放回的二项分布（概率相等）
- 适合于多次重复试验,每一次试验只有两个结果（比如成功或者失败,比如硬币正反面）,做了n次,恰有k次成功的概率；
  注意：每一次试验只有两个结果,你在表达式中看到的p就是其中一个结果的概率,那另一个结果的概率就是1-p了；
- 期望和方差
  - 数学期望和方差：
    二项分布的均值和方差分别为Np和Np(1-p)
负二项分布
- 在二项分布的基础上要求最后一次必须是成功；
几何分布
- 无放回的超几何分布（概率不相等）
- 适合于多次重复试验,每一次试验只有两个结果（比如成功或者失败,比如硬币正反面）,做了n次,第一次成功就停止的概率；
  与二项分布不同的是求的概率不一样；
泊松分布
- 单独事件在给定区间内随机、独立地发生（给定区间可以是时间或空间）
- 已知该区间内的事件平均发生次数，且为有限数值。
  如某加油站，平均每小时来加油的车辆为10辆，泊松分布求的这个加油站每小时前来加油的车辆次数的概率
- 泊松分布适合于描述单位时间（或空间）内随机事件发生的次数。
- 当二项分布的n特别大时,可以转化成泊松分布,这是个定理.
  如果你知道它的表达式,那其中的那个 “入”=np；
指数分布
- 描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程。
  
  如旅客进机场的时间间隔，还有许多电子产品的寿命分布一般服从指数分布。

4 总结

在这里插入图片描述

YJ语

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
统计学中的线性回归

文章目录1 线性回归的基本假设2 线性回归2.1 简单线性回归2.1.1 简单线性回归模型2.1.2 线性回归图像2.1.3 如何求模型的参数呢？--- 最小二乘法2.1.4 如何评估模型的好坏呢？--判定系数 r^22.2 多元线性回归2.2.1 多元线性回归定义2.2.2 多元线性回归参数求解2.2.3 多元判定系数 R^22.2.4 线性回归中，如何提高R^2？2.3 R^2和p值2.4 多重共线性问题3 常见分布3.1 连续型随机变量的分布3.2 离散型随机变量的分布4 总结1 线性回归的基本假设
复制链接

扫一扫

专栏目录