组队学习——线性回归模型

最新推荐文章于 2024-10-02 23:04:10 发布

abyss-A

最新推荐文章于 2024-10-02 23:04:10 发布

阅读量152

点赞数 2

文章标签：学习线性回归回归

本文链接：https://blog.csdn.net/m0_73957503/article/details/140534883

版权

线性回归的定义

线性回归就是学习一个线性模型从而尽可能预测出接近真实的值。例如一个线性模型F(x)=WXi+B,线性回归试图学习线性模型，我们的目的是使得预测值F(x)与真实值y之间的误差最小，可以用均方误差指标来作为线性回归最优解的评价指标，当均方误差最小时该线性回归效果达到最好。基于均方误差最小化来求解的方法被称为“最小二乘法”。线性回归中，最小二乘法尝试找出一条直线使得每个数据点到这条直线的欧氏距离之和最小。

多元线性回归

多元线性回归就是自变量有多个的线性回归。

逻辑回归

逻辑回归也称为对数几率回归。逻辑回归用于解决分类问题，其数学表达式就是在线性回归模型表达式的基础上对因变量y取对数几率，也就是把y变为ln(y/(1-y))。

线性判别分析的理论

线性判别分析（LDA）就是将训练集的样本数据投影到一条直线上，相同类别的样本之间的距离要尽可能的近，而不同种类的样本之间要尽可能的远。在对新样本数据进行分类时，将新样本数据投影到直线上，再根据投影点的位置来确定该样本数据所属的类别。

多分类学习的方法

在实际问题中经常涉及到多分类问题，我们可以用二分类学习的方法推广到多分类问题上。我们可以把多分类拆分为多个二分类，然后为每个二分类进行求解，最后对所有二分类的解进行集成。拆分的策略大致有三种：一对一(OvO)、一对多(OvR)、多对多(MvM)。

类别不平衡问题

在实际问题中，有时会出现数据集中不同类别之间的样本数目差距很大，这就会导致类别不平衡问题，需要采取相应的措施解决。解决不平衡学习的基本策略是“再缩放”，目前大概分为三种：“欠采样”、“过采样”、“阈值移动”。欠采样就是在训练集中将数目多的那一类的部分数据舍弃掉，使得两类数据的数目接近。过采样就是在训练集中增加一些数目少的那一类的数据，使得两类数据的数目接近。欠采样不能随意的丢弃部分数据，过采样也不能简单的增加数据，都需要经过一些较科学的算法来实现。例如过采样法的代表性算法SMOTE，欠采样的代表性算法EasyEnsemble。