文章目录
1 线性回归的基本假设
参考:https://blog.csdn.net/Noob_daniel/article/details/76087829
2 线性回归
2.1 简单线性回归
2.1.1 简单线性回归模型
2.1.2 线性回归图像
2.1.3 如何求模型的参数呢?— 最小二乘法
2.1.4 如何评估模型的好坏呢?–判定系数 r^2
- 范围在0~1之间,越大越好
- 表示的是因变量对自变量的影响程度
-
r^2
思考:r^2足够去判断线性回归的好坏吗?
答:在统计学的角度下,其实r2基本足以来评估模型的好坏。但机器学习的角度下,r2是不足够的,我们也不会拿r2去评估机器学习模型,最主要的原因是机器学习模型很重要的作用是预测未来数据。而r2是对现有样本的拟合程度的度量。现有样本拟合的非常好,不代表对未来数据就拟合的很好。
2.2 多元线性回归
2.2.1 多元线性回归定义
2.2.2 多元线性回归参数求解
- 本质上还是最小二乘法,但是涉及了梯度下降
2.2.3 多元判定系数 R^2
- R^2 范围在(0,1),越大越好,表示的是因变量对自变量的影响程度
2.2.4 线性回归中,如何提高R^2?
自变量个数?高度共线性?
2.3 R^2和p值
- R^2可以量化模型自变量与因变量间的关系强弱
- p-value检验可以决定拟合方程的可靠程度。
(这里通过F检验中的F值,然后求解p值)
2.4 多重共线性问题
-
检测:
- 具体字段利用相关系数判断,相关系数>0.8,则很可能存多重共线性。(df.corr())
-
解决:
- 扩大样本容量:有可能仅仅是当前数据集存在多重共线性
- 把相关系数高的变量去掉
3 常见分布
3.1 连续型随机变量的分布
-
正态分布
- 正态分布 又叫高斯分布,正态分布通过参数平均值和方差确定
- 正态分布 又叫高斯分布,正态分布通过参数平均值和方差确定
3.2 离散型随机变量的分布
-
0-1分布
- 其实就是最简单的二项分布,就是在二项分布中n=1.
-
- 其实就是最简单的二项分布,就是在二项分布中n=1.
-
二项分布
-
有放回的二项分布(概率相等)
-
适合于多次重复试验,每一次试验只有两个结果(比如成功或者失败,比如硬币正反面),做了n次,恰有k次成功的概率;
注意:每一次试验只有两个结果,你在表达式中看到的p就是其中一个结果的概率,那另一个结果的概率就是1-p了; -
期望和方差
- 数学期望和方差:
二项分布的均值和方差分别为Np和Np(1-p)
- 数学期望和方差:
-
-
负二项分布
- 在二项分布的基础上要求最后一次必须是成功;
-
几何分布
- 无放回的超几何分布(概率不相等)
- 适合于多次重复试验,每一次试验只有两个结果(比如成功或者失败,比如硬币正反面),做了n次,第一次成功就停止的概率;
与二项分布不同的是求的概率不一样;
-
泊松分布
-
单独事件在给定区间内随机、独立地发生(给定区间可以是时间或空间)
-
已知该区间内的事件平均发生次数,且为有限数值。
如某加油站,平均每小时来加油的车辆为10辆,泊松分布求的这个加油站每小时前来加油的车辆次数的概率 -
泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。
-
当二项分布的n特别大时,可以转化成泊松分布,这是个定理.
如果你知道它的表达式,那其中的那个 “入”=np;
-
-
指数分布
-
-
描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。
如旅客进机场的时间间隔,还有许多电子产品的寿命分布一般服从指数分布。
-