学习，输出==》再学习再输出

主要关注AI领域的大模型企业落地，AI辅助编程教育普及等内容，致力于AI创新和应用，推动AI赋能企业数字化转型

回归分析

文章平均质量分 61

回归分析是一种用于理解和量化变量之间关系的统计方法。无论是在社会科学、自然科学、经济学，还是在工程学、医学等领域，回归分析都被广泛应用。通过构建模型，我们可以探索和解释变量之间的关联，并利用这些模型进行预测和推断。

文章数：25 文章阅读量：20491 文章收藏量：131

作者: 技术与健康

躬耕技术领域多年，混过大厂，呆过创业公司。主要关注AI领域的大模型企业落地，AI辅助编程教育普及等内容，致力于AI创新和应用，推动AI赋能企业数字化转型

展开

专栏收录文章

回归分析系列21— 非线性回归模型进阶

非线性回归模型是一类用于处理非线性关系的数据建模方法。在很多实际应用中，变量之间的关系并非线性的，此时线性回归模型可能不适用。非线性回归模型可以通过引入非线性函数或更复杂的模型来更好地拟合数据。例如，在建模消费者行为或市场需求时，变量之间的关系通常是非线性的。通过选择适当的非线性函数，可以更准确地描述这些复杂关系。非线性回归的一个关键步骤是选择适当的非线性函数。我们可以通过这些函数来捕捉变量之间的非线性关系。核方法是一种将输入数据映射到高维空间的技术，从而使得在高维空间中的非线性问题在低维空间中变得线性。

原创 2024-08-26 07:50:07 · 365 阅读 · 0 评论
回归分析系列22— 稳健回归

例如，稳健回归方法往往需要更多的计算资源，尤其是在数据量大且异常值多的情况下。此外，在异常值较少时，稳健回归的表现可能不如传统回归模型。通过稳健回归方法，我们可以有效减小这些异常值的影响，从而获得更准确的模型。稳健回归是一种在数据中存在异常值或噪声时，依然能够提供合理估计的回归方法。传统的线性回归对异常值非常敏感，因为它最小化的是平方误差。稳健回归方法通过对异常值降低权重，或者对损失函数进行修正，以减少这些点对模型的影响。通过迭代选择部分数据进行模型拟合，并排除异常值的影响，最终获得稳健的回归系数。

原创 2024-08-26 07:51:01 · 968 阅读 · 0 评论
回归分析系列20— 模型选择与模型验证

通过合理的模型选择和验证过程，我们可以找到性能最佳的模型，并确保它在实际应用中的有效性。关键是平衡模型的复杂度与预测性能，并通过交叉验证和正则化等手段控制模型的泛化能力。在统计建模中，模型选择与验证是关键步骤。这一过程旨在找到最适合数据的模型，并通过交叉验证或其他方法验证其性能。模型选择通常包括选择特征、模型类型以及调整超参数，而模型验证则通过测试数据评估模型的泛化能力。在模型选择过程中，正则化是一种控制模型复杂度的有效方法。通过交叉验证，我们可以更好地评估模型的泛化性能，并避免过拟合。

原创 2024-08-25 08:46:51 · 412 阅读 · 0 评论
回归分析系列14.2— 正则化回归

在选择正则化参数时，通常使用交叉验证来找到最佳的正则化强度。正则化程度越高，模型的系数会越接近零，这使得模型更简单、更容易解释，但可能会牺牲一些精度。正则化回归是一种在回归模型中引入约束的技术，目的是防止模型过拟合并提高其泛化能力。最常见的正则化方法有岭回归（L2正则化）和套索回归（L1正则化）。网格搜索是一种用于选择模型最佳超参数的方法，常用于正则化回归中，如选择正则化强度参数（alpha）。弹性网回归结合了岭回归和套索回归的特性，其目标函数是L1和L2正则化的加权和。在Python中，可以使用。

原创 2024-08-25 08:49:53 · 461 阅读 · 0 评论
回归分析系列19— 多项式回归进阶

在实际应用中，我们通常需要结合交叉验证、正则化等手段，来选择合适的多项式次数以及模型参数。然而，随着多项式次数的增加，模型的复杂度也会迅速上升，导致过拟合的风险。此外，高次多项式的回归系数往往非常大，对输入数据的微小变化也会非常敏感。这个例子展示了如何使用多项式回归来预测房价，以及如何通过提高多项式的次数来捕捉更加复杂的模式。在多项式回归中，我们首先需要生成多项式特征，即将原始特征升至不同次幂并组合。通过在多项式回归中引入正则化，我们可以有效控制模型的复杂度，从而降低过拟合的风险。

原创 2024-08-24 07:50:36 · 352 阅读 · 0 评论
回归分析系列18— 平衡偏差与方差

在模型构建中，我们通常面临偏差（bias）与方差（variance）之间的权衡。偏差是指模型的预测与真实值之间的系统性误差，而方差则是指模型在不同训练集上的波动性。通过引入正则化项，可以有效控制模型的方差。例如，在线性回归中，我们可以使用岭回归（L2 正则化）或Lasso回归（L1 正则化）来平衡偏差和方差。在这段代码中，我们使用bootstrap方法估计了模型的偏差平方和方差，从而更好地理解模型的误差来源。在这个示例中，我们使用了岭回归和Lasso回归来演示如何通过正则化来减少方差，同时保持适当的偏差。

原创 2024-08-24 07:49:25 · 497 阅读 · 0 评论
回归分析系列17— 部分可识别模型

部分可识别模型在经济学、社会科学等领域有广泛应用。在这种情况下，可以通过部分可识别模型来估计某些关键参数，尽管这些估计值通常具有较大的不确定性。在现实世界中，许多模型并不是完全可识别的。部分可识别模型允许在这种情况下对参数进行估计，但往往伴随着较大的不确定性。在部分可识别模型的背景下，评价和选择模型的方法也需要相应调整。传统的指标如AIC或BIC可能不适用，取而代之的是基于后验分布的不确定性分析。在Python中，我们可以通过贝叶斯方法来应对部分可识别性。21.2 部分可识别模型的结构。

原创 2024-08-23 07:58:24 · 452 阅读 · 0 评论
回归分析系列16— 多层次模型

多层次模型（也称为层次线性模型或混合效应模型）在处理具有嵌套结构的数据时非常有用。例如，在教育数据中，学生嵌套在班级中，班级嵌套在学校中。多层次模型的一个经典应用是在教育数据中建模学生成绩。学生嵌套在班级中，班级嵌套在学校中。通过多层次模型，我们可以同时估计班级和学校的效应，并分析不同层次的变异来源。在多层次模型中，系数可以分为固定效应和随机效应。固定效应解释的是群体水平的平均效应，而随机效应解释的是组间差异。当数据具有更复杂的嵌套结构时，多层次模型可以进一步扩展。对应的是固定效应的系数，而。

原创 2024-08-23 07:57:58 · 917 阅读 · 0 评论
回归分析系列15— 贝叶斯回归进阶

在高维数据中，贝叶斯回归可以通过选择适当的先验来控制模型复杂度，避免过拟合。贝叶斯回归是通过贝叶斯推断来估计回归模型参数的方法。与经典的最小二乘法不同，贝叶斯回归在估计参数时结合了先验信息。通过贝叶斯方法，可以得到参数的后验分布，而不仅仅是一个点估计。贝叶斯回归的结果依赖于先验分布的选择。正态分布通常用于岭回归的贝叶斯版本，而拉普拉斯分布则适用于套索回归的贝叶斯版本。然后根据观测数据更新先验分布，得到回归系数的后验分布。通过后验分布，可以直接得到参数的置信区间，这对于模型解释非常有用。类来实现贝叶斯回归。

原创 2024-08-22 07:48:02 · 755 阅读 · 0 评论
【线性相关 vs 双变量回归】数据点在斜率周围的聚集程度与斜率本身并不是一回事。

相对于上图，它们在拟合线周围分散得很开，这表明从 X 的一个值到 X 的较高值对应 Y 的较低值的情况相对较多*，*反之亦然。你会有点疑惑*（因为你对气温的下降不理解）*，于是决定去一座更高的山，发现那里的气温甚至比前一座山上的还要低。1.深入相关性这个概念，我们可以说，如果第一个变量的每一个值，都遵循一定的规律性对应于第二个变量的一个值，那么两个变量是相关的；因此，如果两个变量高度相关，路径将是线性的*（一条线）*，因为相关性描述了变量之间的线性关系。从数学上讲，回归的目的是找到最适合数据的曲线。

原创 2024-08-20 19:21:39 · 1107 阅读 · 0 评论
回归分析系列14— 多项式回归

多项式回归适用于许多实际问题，特别是当数据中存在明显的非线性关系时。例如，在经济学中，多项式回归可以用于预测非线性趋势的经济指标；在医学研究中，它可以用于建模药物剂量与疗效之间的复杂关系。在多项式回归中，选择合适的多项式阶数非常重要。通过交叉验证，可以帮助我们选择最合适的阶数。其中，p 是多项式的阶数，β0,β1,…多项式回归是线性回归的一种扩展，它允许回归模型包括输入变量的高次项。在处理高维数据时，多项式回归容易产生过拟合问题。为了缓解这一问题，可以结合正则化技术，如岭回归或套索回归。

原创 2024-08-22 07:46:57 · 490 阅读 · 0 评论
回归分析系列13— 层次模型

层次模型，也称为多层模型或混合效应模型，是用于分析具有分层或嵌套结构的数据的统计方法。在层次模型中，数据可以按照不同的层次进行分组，每个层次可能会有不同的影响因子。层次模型允许我们在不同的层次上估计参数，从而更好地捕捉数据的复杂性。

原创 2024-08-21 07:58:22 · 849 阅读 · 0 评论
回归分析系列12—具有交互项的回归模型

在回归模型中，除了考虑单个预测变量对响应变量的影响外，还可以考虑预测变量之间的交互作用。这些交互作用项能够捕捉到一个预测变量对另一个预测变量影响的调节作用，从而提供对数据更深刻的理解。假设我们有两个预测变量 X1和 X2，如果我们怀疑它们之间存在交互作用，那么可以在回归模型中加入一个交互项 X1*X2。这个交互项表示 X1 和 X2的乘积，用来捕捉它们的共同影响。在Python中，可以使用的类来生成交互项。# 生成模拟数据# 拆分训练集和测试集# 生成包含交互项的数据# 构建线性回归模型。

原创 2024-08-21 07:57:26 · 2493 阅读 · 0 评论
回归分析系列11—时间序列数据中的回归

时间序列分析的一个关键特性是考虑数据点之间的时间依赖关系。常见的时间序列建模方法包括自回归（AR）、滑动平均（MA）和自回归积分滑动平均（ARIMA）模型。在回归分析中，时间序列模型可以用于预测未来的值。时间序列模型在处理时间相关的数据时非常有效，可以捕捉数据中的时间依赖性。然而，这些模型的复杂性较高，需要对数据的时间特性有较深的理解。ARIMA模型对于具有复杂时间结构的数据可能非常有用，但模型的选择和参数调整是一个挑战。ARIMA模型结合了自回归（AR）、差分（I）和移动平均（MA）三种特性。

原创 2024-08-20 07:31:57 · 1354 阅读 · 0 评论
回归分析系列10—交叉验证与模型选择

不同的模型可能会对同一数据集产生不同的预测效果，因此需要通过某些方法来评估和选择模型。交叉验证是一种常用的技术，用于评估模型的表现并避免过拟合。最常见的形式是K折交叉验证，其中数据被分成K个子集，每次使用一个子集作为测试集，其余的作为训练集。除了选择模型类型外，调参也是模型选择的一部分。在模型选择过程中，使用适当的评估指标来衡量模型的表现非常重要。模型选择的过程通常涉及在多个候选模型中选择一个表现最优的模型。假设我们在多项式回归模型之间进行选择，不同的多项式阶数代表不同的候选模型。函数来执行K折交叉验证。

原创 2024-08-20 07:31:04 · 732 阅读 · 0 评论
回归分析系列9—高维数据中的回归

LASSO（Least Absolute Shrinkage and Selection Operator）回归通过在损失函数中加入L1正则化项来实现特征选择。正则化回归（如岭回归和LASSO）在处理高维数据时具有明显优势，能够有效缓解多重共线性和过拟合的问题。在高维数据中，回归分析可能会面临多重共线性和过拟合的问题。为了解决这些问题，常用的技术包括岭回归、LASSO回归以及降维方法如主成分分析（PCA）。岭回归是一种对线性回归的扩展，通过在损失函数中加入正则化项，减少模型对共线性和过拟合的敏感性。

原创 2024-08-19 07:52:03 · 1091 阅读 · 0 评论
回归分析系列8—逻辑回归

然而，逻辑回归对数据中的异常值和相关性敏感，并且在高维数据或多分类问题中，其性能可能不如其他更复杂的模型。逻辑回归是一种广泛应用的分类方法，主要用于二分类问题。逻辑回归模型中的系数 β\betaβ 代表了每个特征对目标变量的影响。这些系数的解释是：在控制其他变量不变的情况下，每增加一个单位的某个特征，其对目标变量的对数几率的影响为该特征的系数。对于多分类问题（例如，类别有三个或更多），逻辑回归模型可以扩展为多分类逻辑回归。在二分类问题中，逻辑回归模型预测的是目标变量为某一类别的概率。

原创 2024-08-19 07:51:17 · 460 阅读 · 0 评论
回归分析系列7-非线性回归

核回归是一种更为灵活的非线性回归方法。局部回归（LOESS/LOWESS）是一种非参数回归方法，它在局部区域内拟合一个简单模型，从而在整体上获得复杂的非线性关系。局部回归对数据的局部性有很好的适应性，但在处理大规模数据时，计算代价较高。多项式回归是最常用的非线性回归方法之一，它通过将原始特征升维（即增加特征的幂次项）来捕捉非线性关系。非线性回归模型能够捕捉数据中的非线性关系，通过对特征进行非线性变换或者直接使用非线性函数来拟合模型。非线性回归可以灵活地捕捉数据中的复杂模式，但也存在过拟合的风险。

原创 2024-08-18 07:49:37 · 382 阅读 · 0 评论
回归分析系列6-多层次回归

多层次回归模型能够处理数据中的层次结构，并且允许在同一模型中估计多个层次的效应。然而，多层次模型的估计和解释通常比较复杂，尤其是在数据层次较多或效应较复杂的情况下。它们允许在回归模型中同时考虑多个层次（如学校中的学生、不同时间点的个体等）的影响，并且能处理组内和组间的变异性。我们的目标是建立一个模型，预测学生的成绩，同时考虑学校的影响。在上述例子中，每个学校的影响可以看作是随机效应，而学生的成绩预测则由固定效应和这些随机效应共同决定。假设我们有一个简单的模型，其中包括学生的个体特征和学校的特定影响。

原创 2024-08-18 07:44:38 · 1420 阅读 · 0 评论
回归分析系列5-贝叶斯回归

贝叶斯回归将贝叶斯统计的思想应用于回归分析中，通过先验分布和似然函数来推断后验分布。在贝叶斯回归中，模型参数被视为随机变量，并且有自己的分布。通过贝叶斯公式，可以更新这些参数的分布，从而得到后验分布。贝叶斯回归提供了对参数不确定性的自然表达，使得模型更加稳健，并且能够更好地处理小样本数据。然而，贝叶斯方法的计算复杂度较高，尤其是在高维数据或复杂模型中。贝叶斯回归的结果不仅提供了模型参数的点估计，还提供了参数的不确定性估计。提供了一个默认的先验分布，但用户也可以通过调整模型参数来改变先验的形式。

原创 2024-08-17 07:23:53 · 744 阅读 · 0 评论
回归分析系列4-随机森林

随机森林是一种集成学习方法，通过构建多棵决策树并将其预测结果进行平均（对于回归任务）或投票（对于分类任务）来提高模型的准确性和鲁棒性。相比单一的决策树，随机森林能够更好地应对数据中的噪声和异常值，并且通常具有更高的预测精度。为了展示随机森林在实际中的应用，我们使用一个简单的回归任务，预测房价。假设我们有一个数据集，记录了房屋的多个特征（如面积、卧室数、距离市中心的距离等），以及房价。由于随机森林是由多棵树组成的集成模型，因此特征重要性是通过所有树的平均重要性来计算的。（用于回归）来构建随机森林模型。

原创 2024-08-16 19:06:42 · 482 阅读 · 0 评论
回归分析系列3-分类与回归树

分类与回归树（CART）是一种非参数模型，用于分类和回归任务。CART模型通过不断地将数据集划分成较小的子集，构建一棵决策树。决策树的每个节点对应一个决策规则，根据这个规则将数据划分为两个子集，最终形成树的结构。

原创 2024-08-16 08:15:03 · 412 阅读 · 0 评论
回归分析系列2-二项回归模型

二项回归模型用于处理二元响应变量，即因变量是0或1的分类变量。最常见的二项回归模型是逻辑回归，它可以用来预测事件发生的概率。逻辑回归模型假设：其中，p 是事件发生的概率，x1,x2,…,xp是自变量。

原创 2024-08-15 08:02:26 · 1037 阅读 · 0 评论
回归分析系列1-多元线性回归

多元线性回归是简单线性回归的扩展，允许我们同时研究多个自变量对因变量的影响。多元回归模型可以表示为：其中，x1,x2,…,xp是 p 个自变量，β0 是截距，β1,β2,…,βp是对应的回归系数，ϵ是误差项。

原创 2024-08-14 07:54:35 · 1304 阅读 · 0 评论
回归分析系列0-最基础的简单线性回归

回归分析是一种用于理解和量化变量之间关系的统计方法。无论是在社会科学、自然科学、经济学，还是在工程学、医学等领域，回归分析都被广泛应用。通过构建模型，我们可以探索和解释变量之间的关联，并利用这些模型进行预测和推断。回归分析的核心思想是通过一个或多个自变量（独立变量）来预测或解释因变量（应变量）的变化。例如，研究人员可能会使用回归分析来探讨教育水平、工作经验等因素如何影响工资收入。回归分析不仅限于预测，它还可以帮助我们理解变量之间的关系，例如判断某个因素是否对结果产生显著影响。

原创 2024-08-13 07:42:49 · 973 阅读 · 0 评论

回归分析

作者: 技术与健康

回归分析系列21— 非线性回归模型进阶

回归分析系列22— 稳健回归

回归分析系列20— 模型选择与模型验证

回归分析系列14.2— 正则化回归

回归分析系列19— 多项式回归进阶

回归分析系列18— 平衡偏差与方差

回归分析系列17— 部分可识别模型

回归分析系列16— 多层次模型

回归分析系列15— 贝叶斯回归进阶

【线性相关 vs 双变量回归】数据点在斜率周围的聚集程度与斜率本身并不是一回事。

回归分析系列14— 多项式回归

回归分析系列13— 层次模型

回归分析系列12—具有交互项的回归模型

回归分析系列11—时间序列数据中的回归

回归分析系列10—交叉验证与模型选择

回归分析系列9—高维数据中的回归

回归分析系列8—逻辑回归

回归分析系列7-非线性回归

回归分析系列6-多层次回归

回归分析系列5-贝叶斯回归

回归分析系列4-随机森林

回归分析系列3-分类与回归树

回归分析系列2-二项回归模型

回归分析系列1-多元线性回归

回归分析系列0-最基础的简单线性回归