41-sklearn中的多项式回归

最新推荐文章于 2022-10-11 20:10:44 发布

蓝子娃娃

最新推荐文章于 2022-10-11 20:10:44 发布

阅读量626

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_41033011/article/details/109141031

版权

机器学习专栏收录该内容

89 篇文章 48 订阅

订阅专栏

sklearn中的多项式回归

废话不多说，直接上代码。

在这里插入图片描述

那么为什么当我们传入 $d e g r e e = 3$ 时，得出来有 10 项呢？下面我就进行解释。

如果原始的样本有两个特征 $x_1$ 和 $x_2$ ，传入的 $d e g r e e = 3$ ，相应的，我们最后会得到 10 列，下面我们来分析 10 列是怎么得到的。
在这里插入图片描述
那么，我们可以得出一个结论。当 $d e g r e e = i$ 时，我们的 $P o l y n o m i a l F e a t u r e s$ 将自动的生成所有的 $d e g r e e$ 小于等于 $i$ 相应的所有的多项式的项。也就是说，经过 $P o l y n o m i a l F e a t u r e s$ 之后，我们的样本的总的特征数将会呈指数级的增长。那么这样的一个特性本身会使我们这个 $P o l y n o m i a l F e a t u r e s$ 非常的强大，因为它涉及到了所有的可能的多项式的这种特征。不过与此同时，也会带来一些问题。

Pipeline（管道）

在具体编程实践的时候，我们使用 $s k l e a r n$ 可以非常容易的实现这种多项式回归，也就是所谓的 $P i p e l i n e$ 。

$P i n e l i n e$ 意为管道，那么我们这里是怎么利用管道的呢？

可以想象一下，如果我们使用多项式回归，这个过程是怎么样的？我们首先对于原始的样本数据通过 $P o l y n o m i a l F e a t u r e s$ 这个类生成多项式特征的样本的数据，这是一步。而且我们之前进行多项式回归都是将生成的多项式的样本数据直接送给了 $L i n e a r R e g r e s s i o n$ ，但如果我们的 $d e g r e e$ 非常大的话，比如说 100，我们的样本生成的特征它们的数据之间的差距就会非常大，毕竟 1的1次幂和 10的100次幂之间的差距太大了。