统计学中的线性回归

本文详细介绍了线性回归的基本概念,包括简单线性回归和多元线性回归。讨论了如何使用最小二乘法求解模型参数以及通过判定系数R^2来评估模型的优劣。同时,提到了R^2的局限性和解决多重共线性问题的方法,并简要概述了常见的概率分布类型。
摘要由CSDN通过智能技术生成

1 线性回归的基本假设

参考:https://blog.csdn.net/Noob_daniel/article/details/76087829

2 线性回归

2.1 简单线性回归

2.1.1 简单线性回归模型

在这里插入图片描述

2.1.2 线性回归图像

在这里插入图片描述

2.1.3 如何求模型的参数呢?— 最小二乘法

在这里插入图片描述

2.1.4 如何评估模型的好坏呢?–判定系数 r^2

在这里插入图片描述

- 范围在0~1之间,越大越好
- 表示的是因变量对自变量的影响程度
  • r^2

    思考:r^2足够去判断线性回归的好坏吗?
    答:在统计学的角度下,其实r2基本足以来评估模型的好坏。但机器学习的角度下,r2是不足够的,我们也不会拿r2去评估机器学习模型,最主要的原因是机器学习模型很重要的作用是预测未来数据。而r2是对现有样本的拟合程度的度量。现有样本拟合的非常好,不代表对未来数据就拟合的很好。

2.2 多元线性回归

2.2.1 多元线性回归定义

2.2.2 多元线性回归参数求解

- 本质上还是最小二乘法,但是涉及了梯度下降

2.2.3 多元判定系数 R^2

在这里插入图片描述

- R^2 范围在(0,1),越大越好,表示的是因变量对自变量的影响程度

2.2.4 线性回归中,如何提高R^2?

自变量个数?高度共线性?

2.3 R^2和p值

  • R^2可以量化模型自变量与因变量间的关系强弱
  • p-value检验可以决定拟合方程的可靠程度。
    (这里通过F检验中的F值,然后求解p值)

2.4 多重共线性问题

  • 检测:

    • 具体字段利用相关系数判断,相关系数>0.8,则很可能存多重共线性。(df.corr())
  • 解决:

    • 扩大样本容量:有可能仅仅是当前数据集存在多重共线性
    • 把相关系数高的变量去掉

3 常见分布

3.1 连续型随机变量的分布

  • 正态分布

    • 正态分布 又叫高斯分布,正态分布通过参数平均值和方差确定
      在这里插入图片描述

3.2 离散型随机变量的分布

  • 0-1分布

    • 其实就是最简单的二项分布,就是在二项分布中n=1.
      -在这里插入图片描述
  • 二项分布

    • 有放回的二项分布(概率相等)

    • 适合于多次重复试验,每一次试验只有两个结果(比如成功或者失败,比如硬币正反面),做了n次,恰有k次成功的概率;
      注意:每一次试验只有两个结果,你在表达式中看到的p就是其中一个结果的概率,那另一个结果的概率就是1-p了;

    • 期望和方差

      • 数学期望和方差:
        二项分布的均值和方差分别为Np和Np(1-p)
  • 负二项分布

    • 在二项分布的基础上要求最后一次必须是成功;
  • 几何分布

    • 无放回的超几何分布(概率不相等)
    • 适合于多次重复试验,每一次试验只有两个结果(比如成功或者失败,比如硬币正反面),做了n次,第一次成功就停止的概率;
      与二项分布不同的是求的概率不一样;
  • 泊松分布

    • 单独事件在给定区间内随机、独立地发生(给定区间可以是时间或空间)

    • 已知该区间内的事件平均发生次数,且为有限数值。
      如某加油站,平均每小时来加油的车辆为10辆,泊松分布求的这个加油站每小时前来加油的车辆次数的概率

    • 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。

    • 当二项分布的n特别大时,可以转化成泊松分布,这是个定理.
      如果你知道它的表达式,那其中的那个 “入”=np;

  • 指数分布

    • 在这里插入图片描述

    • 描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。

      如旅客进机场的时间间隔,还有许多电子产品的寿命分布一般服从指数分布。

4 总结

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值