回归算法

常用回归算法

回归算法通过学习因变量和自变量之间的关系实现对数据的预测。
回归有两个重要组成部分自变量和因变量之间的关系,以及不同自变量对因变量影响的强度

1.线性回归

线性回归假定输入变量(X)和单个输出变量(Y)之间呈线性关系。它旨在找到预测值 Y 的线性方程:
在这里插入图片描述
X=(x1,​x2,…,xn) 为 n 个输入变量,W=(w1,w2,…,wn) 为线性系数,b 是偏置项。目标是找到系数 W 的最佳估计,使得预测值 Y 的误差最小。使用最小二乘法估计线性系数 W,即使预测值 (Yhat) 与观测值 (Y) 之间的差的平方和最小。
损失函数
在这里插入图片描述
其中,需要对所有训练样本的误差求和
根据输入变量 X 的数量和类型,可划分出多种线性回归类型:简单线性回归(一个输入变量,一个输出变量),多元线性回归(多个输入变量,一个输出变量),多变量线性回归(多个输入变量,多个输出变量)。

  • 优点:模型简单,结果易于理解。
  • 缺点:对非线性数据拟合不好,容易出现过拟合
2.逻辑回归(用来确定一个事件的概率。通常来说,事件可被表示为类别因变量。)

事件的概率用 logit 函数(Sigmoid 函数)表示:
在这里插入图片描述
目标是估计权重 W=(w1,w2,…,wn) 和偏置项 b。在逻辑回归中,使用最大似然估计量随机梯度下降来估计系数。损失函数通常被定义为交叉熵项:
在这里插入图片描述
逻辑回归用于分类问题,例如根据给定医疗数据判断一个人是否患病。
如果输出类别变量具有两个或更多个层级,则可以使用多项式逻辑回归。另一种用于两个或更多输出变量的常见技术是 OneVsAll。对于多类型逻辑回归,交叉熵损失函数被修改为:

在这里插入图片描述
K是类别总数。

3.正则化

当有大量的输入特征时,需要正则化来确保预测模型不会太复杂。正则化可以帮助防止数据过拟合。它也可以用来获得一个凸损失函数
有两种类型的正则化——L1 和 L2 正则化:

  • 数据高度共线时,L1 正则化也可以工作。在 L1 正则化中,与所有系数的绝对值的和相关的附加惩罚项被添加到损失函数中。L1 正则化的正则化惩罚项如下:

在这里插入图片描述

  • L2 正则化提供了稀疏的解决方案。当输入特征的数量非常大时,非常有用。在这种情况下,惩罚项是所有系数的平方之和:

在这里插入图片描述
λ是正则化参数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值