线性回归和逻辑回归

补档一波机器学习之线性回归和逻辑回归。

线性回归与逻辑回归

什么是回归分析

​ 回归分析是一种统计方法,用于探讨因变量(目标变量)与一个或多个自变量(解释变量、特征变量)之间的关系。它的目的是通过构建数学模型来描述这种关系,从而进行预测和解释。回归分析广泛应用于经济学、金融学、社会科学、医学、工程等领域。

  • 因变量

​ 因变量是我们感兴趣的变量,通常表示为 yyy。在回归分析中,我们试图通过自变量来预测或解释因变量的变化。

  • **自变量:

​ 自变量是用来解释或预测因变量的变量,通常表示为 xxx。自变量可以有一个(简单回归)或多个(多重回归)。

  • 回归模型

​ 回归模型是一种数学表达式,用来描述因变量与自变量之间的关系。例如,在简单线性回归中,模型可以表示为:在这里插入图片描述

其中,β0 是截距,β1 是回归系数,ϵ 是误差项。

  • 回归系数

​ 回归系数表示自变量对因变量的影响程度。在上面的模型中,β1 表示每增加一个单位的 x,y 增加β1 个单位。

  • 误差项

​ 误差项表示模型无法解释的部分,包括随机误差和其他未考虑的因素。

​ 回归分析有很多种。常见的有线性回归,逻辑回归,多项式回归,岭回归和贝叶斯回归。本文主要讲解线性回归和逻辑回归。

线性回归

​ 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,表达式为y = wx + b

在这里插入图片描述

​ 如图所示,圆圈表示数据,每个数据由特征x和值y组成,即数据的坐标为(x,y)。左图中的数据大致呈现线性关系,而右图中,我们找到了一条白色的直线去拟合这些数据。当有新的数据加入,其特征为x,我们就可以根据这条白色的直线,预测其y值。

​ 我们知道,两点即确定一条直线,那为什么我们找到了右图中白色的直线去拟合数据呢?换言之,为什么不是其它的直线?我们是如何确定变量间相互依赖的定量关系的?

理论分析

​ 设直线的表达式为:在这里插入图片描述

在这里插入图片描述

​ 如图所示,黄色的点表示实际值,点坐标由特征x和值y组成。蓝色的直线是我们的预测线(头上的标记表示观测值),直线的纵坐标值表示预测值。我们的目标是尽可能地使这条直线拟合所有数据点。即要使得预测值y’和实际值y之间距离最小,即要求min|y-y‘|的值。数学上,由于绝对值求导有奇点,因此我们改用平方。因此,我们得到了:在这里插入图片描述

​ 这个式子叫残差平方和,是ML回归问题中最常用的损失函数;使得残差平方和最小的方法是最小二乘法。式子中,x和y是已知的,β0和β1是参数。我们要使Q最小,可以采用偏导求解极小值的方式,也可以用梯度下降法。下面是两种方法的表达式,这里就不进行数学推导了。

在这里插入图片描述

在这里插入图片描述

优缺点

优点
  • 简单易懂:线性回归的基本概念和数学推导相对简单,易于理解和解释。模型的参数(截距和斜率)有明确的物理意义。

​ 例如,y=ax1+bx2+cx3+d,设y表示房价,x1表示房子面积,x2表示楼层,x3表示购房时间;则参数a表示房子面积对房价的影响,若a越大,说明房子面积对房价影响越大,参数b和参数c同理;而参数d表示除了房子面积、楼层和购房时间以外,其余的因素对房价影响的数值。

  • 快速高效:计算复杂度低,对于小到中等规模的数据集,训练和预测速度非常快。计算最优参数可以通过闭式解直接得到。
  • 易于实现:线性回归在各种编程语言和机器学习库(如Python的scikit-learn等)中都有现成的实现,
  • 使用方便。适用广泛:线性回归适用于很多实际问题,例如经济学、金融、工程等领域的预测和分析。
缺点
  • 对线性假设敏感:线性回归假设特征和目标变量之间是线性关系。如果实际情况不是线性的,模型的预测性能可能较差。
  • 对异常值敏感:线性回归对异常值非常敏感,异常值会显著影响模型的拟合结果。
  • 假设条件严格:线性回归依赖于一些严格的假设,例如误差的正态分布、独立性等。如果这些假设不成立,模型的性能可能会受到影响。
  • 不能处理多重共线性:当特征之间存在高度相关性(多重共线性)时,线性回归的估计参数可能会变得不稳定,模型变得难以解释。

​ 例如,房子的面积一般影响着卧室的数量,面积越大,卧室数量一般越多,如果将二者作为影响房价的特征,当面积增大时,卧室数量变多,房价增大,我们就难以确定到底是房子面积变大使得房价增大,还是卧室数量变多使得房价增大了。

应用

  • 房价预测:线性回归可以用来预测房屋价格,基于房屋的特征如面积、卧室数量、位置等。
  • 销售预测:公司可以利用线性回归来预测未来的销售额,基于历史销售数据、广告投入、季节性因素等。
  • 健康和医学:在医学研究中,线性回归可以用于预测患者的血压、体重等生理指标,基于饮食、运动等生活方式数据。
  • 18
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值