二手车交易价格预测 ——模型结果融合
通过对赛题的分析,我们可以看出此类问题是对价格进行回归预测,那我们对于数据需要事先做预处理分析,这里我们采用EDA探索性数据分析来进行。
探索性数据分析是对调查,观测所得到的一些初步的杂乱无章的数据,在尽可能量少的先验假定下进行处理。通过作图,制表等形式和方程拟合计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。
对于此类问题我们可以从以下五个方面去描述分析:变量是否有缺失,变量是否有异常值,变量是否有冗余,样本是否存在不平衡问题,以及基于目标price进行分析查看各变量的分布情况。
ps:本赛题中数据链接:二手车交易数据
提取码:wqld
参考链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.12.1cd8593aw4bbL5&postId=95457
本文基于Python3.7进行分析
汇总:
重点介绍:
Bagging和boosting
Bagging即套袋法,其算法过程如下:
从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping有放回的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)
每次使用一个训练