回归分析——基本内容

最新推荐文章于 2023-08-25 17:01:47 发布

怕不是个弱智

最新推荐文章于 2023-08-25 17:01:47 发布

阅读量2.3k

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_40127785/article/details/118736647

版权

机器学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

回归分析

变量之间X,Y之间存在某种密切的联系，但并非严格的函数关系（非确定性关系）

回归：回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术，变量之间的关系并非确定的函数关系，通过一定的概率分布来描述

回归的分类

线性与非线性

线性的严格定义是一种映射关系，其映射关系满足可加性和其次性。通俗理解就是两个变量(因变量和自变量)之间存在一次方函数关系，在平面坐标系中表现为一条直线。

不满足线性即为非线性。

线性回归

线性回归：在回归分析中，如果自变量和因变量之间存在着线性关系，则被称作线性回归。

如果只有一个因变量一个自变量，则被称作一元线性回归，如果一个因变量多个自变量，则被称为多元回归

回归模型

回归模型的一般形式：y = f(x1,x2,x3,...,xp) + E

f(x1,x2,x3,...,xp)确定性关系

E随机误差(扰乱项)：1.影响因素缺失，2.观测/测量误差，3.其他随机误差

建立回归模型的流程

需求分析明确变量

了解实际需求，明确场景，清楚需要解释的指标(因变量)，并根据相关业务知识选取与之相关的变量作为解释变量(自变量)。
数据加工处理

根据上一步分析得到的解释变量，去收集相关的数据(时序数据、截面数据等)，对得到的数据进行清洗、加工，并根据数据情况调整解释变量，并判断是否满足基本假设

核查数据情况是否满足基本假设中和解释变量相关的部分：
- 解释变量是非随机变量，其观测值是常数
- 解释变量之间不存在精确的线性关系
- 样本个数要多于解释变量的个数
- 随机误差：零均值、同方差、不相关、正态
确定回归模型

了解数据集，使用绘图工具绘制变量样本散点图或使用其他分析工具分析变量间的关系，根据结果选择回归模型，如：线性回归模型，指数形式的回归模型等。
模型参数估计

模型确定后，基于收集、整理的样本数据，估计模型中的相关参数。最常用的方法是最小二乘法，在不满足基本假设的情况下还会采取岭回归、主成分回归、偏最小二乘法等。
- 最小二乘法：也叫最小平方法，通过最小化误差的平方和寻找数据的最佳函数匹配的方法。
模型检验优化

参数确定后，得到模型。此时需要对模型进行统计意义上的检验，包括对回归方程的显著性检验、回归系数的显著检验、拟合优化检验、异方差检验、剁成共线性检验等。还需要结合实际场景，判断该模型是否具有实际意义。
模型部署应用

模型检验通过后，可以使用模型进行相关的分析、应用，包括因素分析、控制、预测等。