二手车交易预测4：建模与调参

最新推荐文章于 2023-01-16 12:00:48 发布

EldekeArtas

最新推荐文章于 2023-01-16 12:00:48 发布

阅读量314

点赞数

文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/EldekeArtas/article/details/105245766

版权

本文探讨了 LightGBM 模型的学习过程，对比了它与 XGBoost 的区别，强调了 LGB 在处理数据和计算信息增益上的独特方式，并通过实例展示了数据预处理、线性模型构建以及模型拟合效果的检查。文章最后提到了针对长尾分布数据的处理以及后续将涉及的交叉验证和调参技术。

摘要由CSDN通过智能技术生成

继续打卡。
相关的算法原理很多，上一次打卡去学了GBDT和XGBoost，这次又补充了决策树、线性回归和LightBGM。
后面课程还有补充一些回归分析的内容，这里其中有一些是我在学习STATA的时候学过的，比如如何处理多重共线性、异方差性等问题。这里就不多说了。
这次想先学习一下LightBGM。它与XGBoost、Catboost一起被称为GBDT的三大实现。
与XGBoost一样，LGB也不需要遍历所有的节点，但XGB在遍历节点后比较每个节点的信息增益时，需要考虑所有样本带来的信息增益，而LGB则不同，它选择剃度大的样本来计算信息增益，同时随机地保留一些小梯度样本，这样，同时也就放大了小梯度样本带来的信息增益。
不仅如此，LGB还内置了特征降维技术，来合并一些冲突不那么大的稀疏特征。
下面进入正题。在读取数据后，我们可以def一个函数，通过调整数据类型，减少数据在内存中占用的空间。`

sample_feature = reduce_mem_usage(pd.read_csv('data_for_tree.csv'))

然后就可以看到
Memory usage of dataframe is 62099624.00 MB
Memory usage after optimization is: 16520255.00 MB
Decreased by 73.4%

随后，我们可以先简单建一个线性模型。

from sklearn.linear_model import LinearRegression
model = LinearRegression(normalize=True)
model = model.fit(train_X, train_

最低0.47元/天解锁文章

EldekeArtas

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫