多项式回归
用sklearn实现多项式回归:
数据:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
# 载入数据
data = np.genfromtxt("job.csv", delimiter=",")
x_data = data[1:,1]
y_data = data[1:,2]
# 增加维度,将一维变成二维,因为模型训练的时候需要二维的数据
x_data = x_data[:,np.newaxis]
y_data = y_data[:,np.newaxis]
# 定义多项式回归,degree的值可以调节多项式的特征,如果等于1就是线性回归,等于5就相当于拟合一条5次曲线
poly_reg = PolynomialFeatures(degree=5)
# 特征处理,上面的degree是多少这里的特征处理就会将一个特征变成该特征的0-4次方
x_poly = poly_reg.fit_transform(x_data)
# 定义回归模型
lin_reg = LinearRegression()
# 训练模型,要用特征处理后的数据训练
lin_reg.fit(x_poly, y_data)
# 画真实数据图
plt.plot(x_data, y_data, 'b.')
# 将1-10之间平均分成1000个点
x_test = np.linspace(1,10,1000)
x_test = x_test[:,np.newaxis]
# 用这1000个点用训练好的模型lin_reg来拟合曲线(点太少就会出现不光滑的现象)
plt.plot(x_test, lin_reg.predict(poly_reg.fit_transform(x_test)), c='r')
plt.title('Truth or Bluff (Polynomial Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()