数据预处理--生成多项式特征（PolynomialFeatures）

最新推荐文章于 2024-08-18 10:58:07 发布

AndrewTeng

最新推荐文章于 2024-08-18 10:58:07 发布

阅读量4.2k

点赞数 2

分类专栏：数据预处理文章标签： Python 数据处理 PolynomiaFeatures

本文链接：https://blog.csdn.net/qq_30982323/article/details/98206575

版权

数据预处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

使用 scikit-learn提供的PolynomialFeatures 这个类可以进行特征的构造，例如有两个特征a和b，由这两个特征构造的特征项为[1, a, b, a², a*b, b²]。

PolynomialFeatures 这个类有 3 个参数：

degree：控制多项式的次数；
interaction_only：默认为 False，如果指定为 True，那么就不会有特征本身和本身结合的项，组合的特征中没有 a² 和 b²；
include_bias：默认为 True 。如果为 True 的话，那么结果中就会有 0 次幂项，即全为 1 这一列。

下面通过几个例子进行说明：
构造一个3*2维的特征值

import numpy as np
from sklearn.preprocessing import PolynomialFeatures

X = np.arange(6).reshape(3, 2)
X

输出：

array([[0, 1],
       [2, 3],
       [4, 5]])

pf = PolynomialFeatures(2)
pf.fit_transform(X)

输出

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

通过powers_属性可以看出上面的输出是怎么由这些特征组合的：

pf.powers_

输出：

array([[0, 0],
       [1, 0],
       [0, 1],
       [2, 0],
       [1, 1],
       [0, 2]], dtype=int64)

可以看到，pf.powers_输出的第一行是[0, 0]，对应的是上面pf.fit_transform(X)的[1, 1, 1]这一列。意思是上面的3*2维特征的第一列的0次幂加上第二列的0次幂，剩下的以此类推。

可以设置include_bias=False，这时就没有 0 次幂项（两个特征组合一起的0次幂没有，如a⁰*b⁰，但一个特征的0次幂是存在的，如a⁰*b¹），即全为 1 这一列。

pf = PolynomialFeatures(include_bias=False)
pf.fit_transform(X)

输出

array([[ 0.,  1.,  0.,  0.,  1.],
       [ 2.,  3.,  4.,  6.,  9.],
       [ 4.,  5., 16., 20., 25.]])

此时pf.powers_输出：

array([[1, 0],
       [0, 1],
       [2, 0],
       [1, 1],
       [0, 2]], dtype=int64)

官方文档：
https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

AndrewTeng

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录