决策树和随机森林分析应用
接下来,我们创建一个示例数据集,该数据集表示了 A 会不会和 B 进行第二次约会。而数据集中的特征包括:外貌,口才,酒精消费,以及第一次约会花了多少钱。接下来,我们需要对类别特征进行独热编码,以保证数据集特征全部为数值类型方便后续传入模型。可以看的测试数据中,年龄 Age 是 object 类型,我们需要修复其为整数类型。然后,对连续特征使用中位数对缺失数据进行填充,而类别特征则使用众数进行填充。然后,对数据集进行一些必要的清洗。接下来,查看训练数据集目标分布计数,同时绘制各项特征的关联分布图像。
复制链接