R数据分析：变量间的非线性关系，多项式，样条回归和可加模型

最新推荐文章于 2025-03-28 08:49:08 发布

公众号Codewar原创作者

最新推荐文章于 2025-03-28 08:49:08 发布

阅读量8.5k

点赞数 7

分类专栏： R 文章标签： r语言 R

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tm_ggplot2/article/details/121878789

版权

之前的文章中都是给大家写的变量间线性关系的做法，包括回归和广义线性回归，变量间的非线性关系其实是很常见的，今天给大家写写如何拟合论文中常见的非线性关系。包括多项式回归Polynomial regression和样条回归Spline regression。

多项式回归

首先看一个二次项拟合的例子，我现在想探讨苹果内容物apple content和苹果酸度cider acidity的关系，第一步应该是做出apple content和cider acidity关系的散点图，假如是下图：

那么我很直观地可以看出来，曲线（二次）对数据的拟合明显是好于线性拟合的。

上面的只是一个2次项拟合的例子，我们其实经常会遇到有可能高次式会把数据拟合的更好，社科论文中其实也常常见到做高次回归的，常见的1次，2次，3次，4次项英文论文中的表达，曲线形状如下：

拟合出来的一般模型表达式如下：

而且通常情况下，模型中所有的低次项都不应该被略去。就是我有了4次项，那么应该3，2，1次项都应该有。

含有二次及以上的模型就叫多项式回归模型。

样条回归

之前在机器学习的文章中有给大家写过拟合，我们做多次项拟合的时候，按道理你可以将项的次数调得很高，总是可以近乎完美的拟合我们的复杂的非线性关系，但是问题就是外推性就没有了，这也并不是我们想看到的结果：

High-degree polynomials allow us to capture complicated nonlinear relationships in the data but are therefore more likely to overfit the training set.

还有就是自变量和因变量之间的关系在自变量的不同取值范围也并非不变的，

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

公众号Codewar原创作者 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。