数据挖掘比赛
文章平均质量分 89
闲筝小巴卫
这个作者很懒,什么都没留下…
展开
-
二手车价格预测-TASK2-EDA数据分析
数据分析(EDA):(为特征筛选准备)一、数据概览:1.数据分布(四分位数、均值、方差、最大值、最小值等) describe:a)min max远超过平均值或者中位数,那么可能是有异常值,或者是偏态分布。b)train和test的均值、标准差等是否一致,如果不一致说明训练集和测试集的分布不同分布不同可能需要对训练集进行采样,使其和测试集分布一样,从而达到更好的效果。2.数据类型与缺失值 info:了解数据type,有助于理解除了nan以外的特殊符号异常(object)。了解缺失值,isnul原创 2021-04-16 17:31:23 · 355 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-二手车价格预测
Datawhale 零基础入门数据挖掘-Task1 赛题理解今天开始参加天池和datawhale联合举办的二手车价格预测比赛,是对新手十分的友好的零基础数据挖掘比赛。接下来我们将这个比赛分为多个task,其中task1是赛题整体的理解把握,task2是EDA(也就是数据挖掘分析),task3是特征工程,task4是数据建模,task5是模型融合。这也是我第一次参加数据挖掘类赛事,不求完全精深,但是求思维的广度得到扩展。就像“西瓜书”的作者所说,先对所学有一个总览,再来追求深度。这也和我们大脑的学习习惯有原创 2021-04-13 19:10:34 · 200 阅读 · 0 评论