一、线性回归面试题总结

线性回归是一种预测模型,通过特征的线性组合预测目标值。损失函数通常采用最小二乘法,求解方法包括公式法和梯度下降。为防止过拟合,引入了L1(Lasso)和L2(Ridge)正则化。Lasso可实现特征选择,而Ridge仅收缩参数。ElasticNet结合两者优点。在实际应用中,需注意数据预处理和正则化策略的选择。
摘要由CSDN通过智能技术生成

1.什么是线性回归?

是一种预测模型,利用各个特征的数值去预测目标值。线性回归的主要思想是给每一个特征分配一个权值,最终的预测结果是每个特征值与权值的乘积之和再加上偏置。所以训练的目标是找到各个特征的最佳权值和偏置,使得误差最小。

2.线性回归要预测的函数是什么形式?

特征的线性组合,即每个特征值与权值的乘积之和再加上偏置。

3.线性回归的损失函数是什么?

一般使用最小二乘法,损失函数是各个样本真实值与预测值之差的平方和,需要找到合适的参数,也就是权重和偏置,使得这个误差平方和最小。
在这里插入图片描述
其中共有 m m m个样本点,乘以1/2是为了方便计算

4.线性回归的求解方法

  1. 公式法。损失函数对w和b分别进行求导,令导数为0,然后求解w和b。
    矩阵X需要是满秩矩阵,非满秩矩阵在求逆时会出现问题。
    样本数量要大于特征数量,即方程数大于未知数。
  2. 优化方法。初始化w和b,然后使用优化方法不断进行优化求解。通常使用梯度下降法

5.线性回归不好的原因

  1. 普通线性回归容易过拟合,使用LASSO或者RIDGE回归试试。
  2. 数据不符合线性回归的假设
  3. 可能需要进一步进行特征工程
6.岭回归(L2正则化)

损失函数变为:
在这里插入图片描述
在原来的损失函数基础上加入w参数的平方和乘以 λ \lambda λ(加入w的L2范数) 。相当于增加了一个约束项,在这个约束之下求损失函数的最小值。

7.Lasso回归(L1正则化)

损失函数:
在这里插入图片描述
在损失函数中加入w的L1范数,w容易落到坐标轴上,即Lasso回归容易得到稀疏矩阵

8.Ridge回归和Lasso回归的使用目的和使用场景

  1. 解决普通线性回归过拟合的问题;
  2. 解决方程求解法中非满秩矩阵无法求解的问题;
  3. 约束参数

9.Ridge回归和Lasso回归谁更好

Lasso回归(L1)同时做变量选择和参数收缩,而ridge回归只做参数收缩
Lasso回归以使得一些特征的系数变小,甚至还使一些绝对值较小的系数直接变为0,从而增强模型的泛化能力,对少量变量有中等或大尺度的影响的时候用lasso回归。
在对多个变量只有小或中等尺度影响的时候,使用Ridge回归。

10.什么是ElasticNet回归

ElasticNet综合了L1正则化项和L2正则化项,以下是它的公式:
在这里插入图片描述
ElasticNet在我们发现用Lasso回归太过(太多特征被稀疏为0),而岭回归也正则化的不够(回归系数衰减太慢)的时候,可以考虑使用ElasticNet回归来综合,得到比较好的结果。

10.线性回归要求数据服从正态分布?

我们假设线性回归的噪声服从均值为0的正态分布。 当噪声符合正态分布N(0,delta^2)时,因变量则符合正态分布N(ax(i)+b,delta2),其中预测函数y=ax(i)+b。这个结论可以由正态分布的概率密度函数得到。也就是说当噪声符合正态分布时,其因变量必然也符合正态分布

在用线性回归模型拟合数据之前,首先要求数据应符合或近似符合正态分布,否则得到的拟合函数不正确。

11.简要介绍一下线性回归处理步骤,怎么确定因变量与自变量间线性关系,什么情况下可停止迭代,怎么避免过拟合情况?

一般来说缺失值处理类别变量数值化异常值处理连续特征离散化(数据分桶)归一化等等,当两次迭代所带来的增益小于事先给定的阈值时,或者达到事先设定的最大迭代次数,则停止迭代过程,过拟合没法避免只能说是尽量降低过拟合的影响,通过l1、l2正则化、减少特征的数量、增大样本的数量等等。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值