分箱、离散化、线性模型和树

最新推荐文章于 2024-05-23 18:00:05 发布

Taohongfei_huster

最新推荐文章于 2024-05-23 18:00:05 发布

阅读量1.5k

点赞数 2

分类专栏：机器学习 sklearn 特征工程

本文链接：https://blog.csdn.net/qq_41951186/article/details/83063461

版权

本文探讨了线性模型和基于树的模型在处理数据表示时的不同特性，以wave数据集为例，展示了分箱操作如何增强线性模型的性能。通过分箱和one-hot编码，线性回归模型能与决策树模型达到类似的效果。对于非线性关系的特征，分箱是提高线性模型建模能力的有效方法，尤其是在高维和大数据集的情况下。

摘要由CSDN通过智能技术生成

数据表示的最佳方法不仅取决于数据的语义，还取决于所使用的模型的种类。线性模型与基于树的模型（比如决策树、梯度提升树和随机森林）是两种成员很多同时又非常常用的模型，它们在处理不同的特征表示时就具有非常不同的性质。本节以wave数据集为例，它只有一个输入特征。

1.线性回归模型和决策树回归在数据集上的对比

from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor

X, y = mglearn.datasets.make_wave(n_samples=100)
line = np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1)

reg = DecisionTreeRegressor(min_samples_split=3).fit(X, y)
plt.plot(line, reg.predict(line), label="decision tree")

reg = LinearRegression().fit(X, y)
plt.plot(line, reg.predict(line), label="linear regression")

plt.plot(X[:, 0], y, 'o', c='k')
plt.ylabel("Regression output")
plt.xlabel("Input feature")
plt.legend(loc="best")

最低0.47元/天解锁文章

Taohongfei_huster

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分箱、离散化、线性模型和树

数据表示的最佳方法不仅取决于数据的语义，还取决于所使用的模型的种类。线性模型与基于树的模型（比如决策树、梯度提升树和随机森林）是两种成员很多同时又非常常用的模型，它们在处理不同的特征表示时就具有非常不同的性质。本节以wave数据集为例，它只有一个输入特征。1.线性回归模型和决策树回归在数据集上的对比from sklearn.linear_model import LinearRegres...
复制链接

扫一扫

专栏目录