Python监督学习_五种常见回归(线性模型)+ 朴素贝叶斯分类器_线性回归、岭回归、lasso、用于分类的线性模型、用于多分类的线性模型

接下来是五种回归(线性模型)

用于回归的线性模型(可以理解为直线方程或者加权求和)

单一预测为一条直线,两个特征为一个平面,以此类推。线性模型对多个特征的数据集而言非常强大!

X, y = mglearn.datasets.make_forge()
mglearn.plots.plot_linear_regression_wave()

1.线性回归(普通最小二乘法)

两个参数w(权重/系数 NumPy数组) in  coef_属性 ,  b(偏移/截距 浮点数) in intercept_属性。寻找这两个参数使得均方误差(预测值与真实值之差的平方和除以样本数)最小。由于此算法没有参数,故无法控制模型复杂度。

from sklearn.linear_model import LinearRegression
X, y = mglearn.datasets.make_wave(n_samples=60)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
lr = LinearRegression().fit(X_train, y_train)
print("lr.coef_: {}".format(lr.coef_))
print("lr.intercept_: {}".format(lr.intercept_))

训练集和测试集的性能,可能存在欠拟合,因为在训练集和测试集的分数很接近。

print("Training set score: {}".format(lr.score(X_train, y_train)))
print("Test set score: {}".format(lr.score(X_test, y_test)))

接下来用更大的数据集去看LinearRegression的表现,会发现在训练集分数较高,测试集低很多。

X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
lr = LinearRegression().fit(X_train, y_train)
print("Training set score: {}".format(lr.score(X_train, y_train)))
print("Test set score: {}".format(lr.score(X_test, y_test)))

小结:

训练集和测试集分数接近:可能是欠拟合    训练集和测试集分数差异:可能是过拟合

2.岭回归(可以控制模型复杂度)(L2正则化 使系数趋于0)

它预测公式和最小二乘法相同,但对 w 的选择不仅要在训练数据上得到好的结果还要拟合附加约束,同时希望系数尽可能小,即 w 的所有元素接近于0。直观上看,每个特征对输出的影响尽可能小(斜率小),同时仍给出较好的预测结果,即所谓的正则化(regularization)。正则化是指对模型做显式约定,避免过拟合,这种被称为L2正则化。L1正则化为各系数绝对值之和,L2为各系数平方和。

from sklearn.linear_model import Ridge
ridge = Ridge().fit(X_train, y_train)
print("Training set score: {}".format(ridge.score(X_train, y_train)))
print("Test set score: {}".format(ridge.score(X_test, y_test)))

此算法的泛化能力更好,而对训练集的拟合效果并不是那么理想。它通过调节参数alpha约束来平衡模型的简单性和训练集性能,我们使用的alpha=1.0的默认参数。增大alpha可能使得系数更加趋于0,可能会提高泛化能力

from sklearn.linear_model import Ridge
ridge = Ridge(alpha=10).fit(X_train, y_train)
print("Training set score: {:.2f}".format(ridge.score(X_train, y_train)))
print("Test set score: {:.2f}".format(ridge.score(X_test, y_test)))

减小alpha参数,让系数受到的限制更小,当系数几乎没有任何限制时,得到一个与LinearRegression类似的模型。

from sklearn.linear_model import Ridge
ridge = Ridge(alpha=0.1).fit(X_train, y_train)
print("Training set score: {:.2f}".format(ridge.score(X_train, y_train)))
print("Test set score: {:.2f}".for
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值