本篇博客谈一谈多项式回归,通过代码理解一下为什么要使用多项式回归。
1 多项式回归
在sklearn中封装了线性回归,用来解决预测与特征符合线性关系这种情况,但现实生活中有很多情况是不符合线性关系有可能是符合二次方这样的关系等,那我们要怎么解决呢?下面用代码来体验下
①我们先自己制做一下数据
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
#x从-3 - 3均匀取值
x = np.random.uniform(-3, 3 ,size=100)
X = x.reshape(-1, 1)
#y是二次方程
y = 0.5 * x**2 + x +2 + np.random.normal(0, 1, size = 100)
plt.scatter(x, y )
输出:
从图片中科院看出y符合二次方程
②试一下用线性关系来拟合
from sklearn.linear_model import LinearRegression
#实例化线性模型
lr = LinearRegression()
lr.fit(X, y)
y_predict = lr.predict(X)
plt.scatter(x, y )
plt.plot(x, y_predict)
输出:
从图中很明显得出y本身是二次关系,而我们用线性关系去拟合,可想而知拟合效果非常不好,那我要怎么解决呢?
我们用的特征X是一元,而y是二元二次方程,我们可以为总特征添加二次这个特征然后去拟合,试一下吧。添加二次特征可以使用sklearn中的PolynomialFeatures
③ 使用sklearn中的PolynomialFeatures拟合y
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2)
#degree=2 生成2次特征,可以调整
poly.fit(X)
X2 = poly.transform(X)
print('X2的大小',X2.shape)
X2[0:5, :]
输出:
X2的大小 (100, 3)
array([[ 1. , 0.50357262, 0.25358539],
[ 1. , 0.63851188, 0.40769742],
[ 1. , 0.47278938, 0.2235298 ],
[ 1. , 2.9326759 , 8.60058795],
[ 1. , 0.68268876, 0.46606394]])
我们已经为X添加了二次的特征,来拟合下y
#继续使用线性模型
lr.fit(X2, y)
y_predict2 = lr.predict(X2)
plt.scatter(x, y)
plt.plot(np.sort(x), y_predict2[np.argsort(x)] )
输出:
对比原来的图,可以发现这次我们的直接很好的拟合了y这个分布。
2 总结
对于我们拿到的特征只有低次关系,而预测值为高次关系,我们可以使用PolynomialFeatures生成高次的特征去更好拟合预测值