数据挖掘
小四姑娘
这个作者很懒,什么都没留下…
展开
-
小白数据挖掘进阶之路5----(房租预测)模型融合
在上一阶段中,我们学习了如何对模型进行选择,接下来我们一起来学习如何对模型进行融合。模型融合模型融合通常可以在各种不同的机器学习任务中使结果获得提升。顾名思义,模型融合就是综合考虑不同模型的情况,并将它们的结果融合到一起。具体内容会从以下几个方面来讲:一、VotingVoting即投票机制,分为软投票和硬投票两种,其原理采用少数服从多数的思想。硬投票:对多个模型直接进行投票,最终投票数最...原创 2020-01-17 10:52:13 · 396 阅读 · 0 评论 -
小白数据挖掘进阶之路4----(房租预测)模型选择
上一节当中我们学习了如何对特征进行选择,在我看来,特征是各种运算和组合,真正合适的特征是反复筛选的结果,还需要多动手做一下。因此这一部分特征示例才格外重要。特征工程做完了,数据挖掘的工作其实已经完成了80%,接下来就是对模型的选择了。模型选择在模型选择的时候,应该根据具体情况选择合适的模型。常用的一般有GBDT,XGBoost,lightGBM,下面给出讲解这几个模型的链接,个人觉得还是不错的...原创 2020-01-15 21:30:41 · 369 阅读 · 0 评论 -
小白数据挖掘进阶之路3----(房租预测)特征工程&特征选择
此部分的内容应该是整个比赛当中最重要的部分:特征工程好特征即使使用一般的模型,也能得到很好的效果!好特征的灵活性在于它允许你可以选择不复杂的模型,同时,运行速度也更快,也更容易理解和维护。好的特征,即使参数不是最优解,模型性能也能表现很好,因此,不需要太多时间去寻找最优参数,大大的降低了模型的复杂度,使模型趋向简单。模型的性能包括模型的效果,执行的效率及模型的可解释性。特征工程的最终目的就是提升...原创 2020-01-10 21:36:53 · 555 阅读 · 0 评论 -
小白数据挖掘进阶之路----(房租预测)赛题与数据
在刚开始对数据处理之前,我们应该要对这个数据有个充分的了解赛题分析:比赛要求参赛选手根据给定的数据集,建立模型,预测房屋租金。数据集中的数据类别包括租赁房源、小区、二手房、配套、新房、土地、人口、客户、真实租金等。这是典型的回归预测。1. 预测指标回归结果评价标准采用R-SquareR2(R-Square)的公式为: 残差平方和总平均值:R²用于度量因变量的变异中可自由变量解释...原创 2020-01-07 10:40:13 · 978 阅读 · 0 评论