多项式回归Polynomial-Regression(8.1)

多项式回归完全使用线性回归的思路。关键在于我们为原来的数据样本添加新的特征,而得到这些新的特征的方式是原有特征的多项式组合,这样就可以解决一些非线性问题。

多项式阶数越高模型越复杂

所以训练过程 可以先添加特征,然后再调用线性回归

import numpy as np 
import matplotlib.pyplot as plt
#生成数据
x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

X2 = np.hstack([X, X**2]) #添加特征
#线性回归
from sklearn.linear_model import LinearRegression
lin_reg2 = LinearRegression()
lin_reg2.fit(X2, y)
y_predict2 = lin_reg2.predict(X2)

#绘制结果
plt.scatter(x, y)
plt.plot(np.sort(x), y_predict2[np.argsort(x)], color='r') #注意此处直接绘制,y_predict2,图形是乱的,因为x是随机生成的是乱序的。绘制直线时即使是乱序的也没事
plt.show()

sklearn中的多项式回归

由于多项式回归主要是在调用线性回归之前改造了X,为X添加了特征,相当于数据预处理;所以在scikit-learn中对多项式的添加特征的过程封装在了sklearn.preprocessing包中(归一化也在这个包)

添加特征

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2)#最多添加几次幂特征
poly.fit(X)                        
X2 = poly.transform(X)            #PCA / 归一化也是用fit transform 的方式

 调用线性回归

from sklearn.linear_model import LinearRegression
lin_reg2 = LinearRegression()
lin_reg2.fit(X2, y)
y_predict2 = lin_reg2.predict(X2)

绘图

plt.scatter(x, y)
plt.plot(np.sort(x), y_predict2[np.argsort(x)], color='r')
plt.show()

关于PolynomialFeatures

当X数据有2列X(x1,x2),使用PolynomialFeatures(degree=2),后会变几列?(6列)

分别为 0次幂1列、1次幂2列(原X)、2次幂3列(x1^2,x1*x2,x2^2)

X = np.arange(1, 11).reshape(-1, 2)

poly = PolynomialFeatures(degree=2)
poly.fit(X)
X2 = poly.transform(X)
X2.shape   #结果:(5,6)
X2

当degree等于3时 原X变为10列

PolynomialFeatures(degree=i)使原数据列数指数级增长

Pipeline

多项式回归过程:

  1. 将原始数据通过使用PolynomialFeatures(degree=i)这个类生成多项式特征样本的数据
  2. 如果degree的值比较大,样本经过degree次方后将变得特别大,和1次方差距很大。
  3. 在线性回归中使用梯度下降法,如果数据太不均衡,会使得搜索非常的慢,需要归一化
  4. 送入线性回归

pipeline 可以帮助我们将这几步合在一起,使得我们每一次调用时不需要不停的重复这几步。

sklearn并没有提供多项式回归这个类,使用pipeline方式可以方便的创建自己的多项式回归的类

使用Pipeline

1生成数据

#生成数据
x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100)

2使用pipeline

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# 三个步骤封装在一起,引号里的名字时自定义的
poly_reg = Pipeline([                 
    ("poly", PolynomialFeatures(degree=2)),
    ("std_scaler", StandardScaler()),
    ("lin_reg", LinearRegression())
])

3直接使用pipeline训练预测多项式回归模型

poly_reg.fit(X, y)
y_predict = poly_reg.predict(X)

4.绘制结果

plt.scatter(x, y)
plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
plt.show()

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值