数据分析与可视化:
在本次的打卡中,我们的目的是提高我们的分数,也就是我们预测值与实际值的贴合程度,所以我们要对模型进行优化。首先是对数据进行相关性分析,输出的结果我们很难直观的判断,因此我们就要进行数据可视化处理。
首先对特征值进行热力图分析
我们从图中可以看到,特征值中的x7与target预测值之间的相关性较高,所以我们从特征值x7入手,求出x7标签下的均值。
交叉验证选取适合的模型
随后对我们下面要使用到的模型进行交叉验证,判断出最适合于我们的模型
对随机梯度下降(SGD),决策树(DecisionTree),多项式朴素贝叶斯(MultinomialNB)和随机森林(RandomForest)这四种模型进行交叉验证
以上是输出结果,根据输出结果,我选取了决策树的模型进行训练
根据以上模型,对数据进行第一期的处理,最后得出我们最后的结果