什么是多项式回归
相对于线性回归y=ax+b这种形式,多项式回归是,有高幂的项出现
如何计算多项式回归
其实多项式回归和线性回归是有很大联系,通过类比的方式
线性回归 y=ax+b 可以看做是一个特征值x对应着一个标签y
多项式回归 可以看做是[
, x]两个特征值对应着一个标签y
所以,使用多项式回归的思路
1、先增加特征值,以2次幂为例,就增加多一列到已有的特征值中,组成[
, x]形式
2、再使用多项式线性回归的方式,对数据模型进行训练
这里会引入PolynomialFeatures(),这个函数是用来添加需要的多项式的,最高要加入多少次幂的,这里的degree就要写入多少
代码如下
x = np.random.uniform(-3, 3, size=100)
import numpy as np
import matplotlib.pyplot as plt
X = x.reshape(-1, 1)
y = 0.5*x*x+x+2+np.random.normal(0, 1, size=100)
plt.scatter(x, y)
from sklearn.linear_model import LinearRegression
#自己写的多项式回归处理
X2 = np.hstack([X**2, X]) #添加新的特征值
linear2 = LinearRegression()
linear2.fit(X2, y)
Y_predict = linear2.predict(X2)
plt.plot(np.sort(x), Y_predict[np.argsort(x)], color="g")
#使用sklearn里的多项式回归处理
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree = 2)
poly.fit(X)
X3 = poly.transform(X)
linear3 = LinearRegression()
linear3.fit(X3, y)
YPredict = linear3.predict(X3)
plt.plot(np.sort(x), YPredict[np.argsort(x)], color="w")
plt.show()
linear3.coef_
管道法
在机器学习中,我们很多是不断重复 fit(), predict(), transform()这几个函数,那有么有可以简化的呢
管道法可以解决,代码如下
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
pip = Pipeline([
("poly", PolynomialFeatures(degree = 2)),
("standar", StandardScaler()),
("linear", LinearRegression()),
])
pip.fit(X, y)
pipPredict = pip.predict(X)
plt.plot(np.sort(x), pipPredict[np.argsort(x)])
plt.show()
通过引入Pipline类解决这个问题