统计学之线性回归、卡方分布（四）

最新推荐文章于 2021-11-21 10:57:29 发布

悄悄不加糖

最新推荐文章于 2021-11-21 10:57:29 发布

阅读量2.3k

点赞数

分类专栏：统计知识文章标签：统计学

本文链接：https://blog.csdn.net/weixin_42927719/article/details/99214678

版权

统计知识专栏收录该内容

9 篇文章 19 订阅

订阅专栏

回归，指研究一组随机变量(Y1 ，Y2 ，…，Yi)和另一组(X1，X2，…，Xk)变量之间关系的统计分析方法，又称多重回归分析。通常Y1，Y2，…，Yi是因变量，X1、X2，…，Xk是自变量。

线性回归

线性回归，就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候，就能够预测出一个简单的值。

数学表达式： ${y}={\theta+\theta_1x_1+\theta_2x_2+...+\theta_nx_n}$
矩阵形式： ${y=}{\theta}\mathbf{X}$

Hypothesis，表示的就是线性回归模型
Cost Function，代价函数
Goal，就是要求对应的代价函数最小

在这里插入图片描述
特点：

建模速度快，不需要很复杂的计算，在数据量大的情况下依然运行速度很快。
可以根据系数给出每个变量的理解和解释。
对异常值很敏感。

线性回归正则化

为了防止模型的过拟合，我们在建立线性模型的时候经常需要加入正则化项。一般有L1正则化和L2正则化。

L1正则化Lasso回归

L1正则化通常称为Lasso回归，它和一般线性回归的区别是在损失函数上增加了一个L1正则化的项，L1正则化的项有一个常数系数 ${\alpha}$ 来调节损失函数的均方差项和正则化项的权重，具体Lasso回归的损失函数表达式如下：　　
$J(θ)=\frac{1}{2n}(Xθ-Y)^T(Xθ-Y)+\alpha|θ|_1$
其中n为样本个数， ${\alpha}$ 为常数系数，需要进行调优。 $θ_1|$ 为L1范数。

Lasso回归可以使得一些特征的系数变小，甚至还是一些绝对值较小的系数直接变为0。增强模型的泛化能力。

L2正则化Ridge回归

L2正则化通常称为Ridge回归，它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项，和Lasso回归的区别是Ridge回归的正则化项是L2范数，而Lasso回归的正则化项是L1范数。具体Ridge回归的损失函数表达式如下：
$J(θ)=\frac{1}{2}(Xθ-Y)^T(Xθ-Y)+\frac{1}{2}\alpha|θ|_2^2$
其中 ${\alpha}$ 为常数系数，需要进行调优。 $θ_2|$ 为L2范数。