datawhale入门竞赛
iam153
这个作者很懒,什么都没留下…
展开
-
Datawhale 零基础入门数据挖掘-Task3 特征工程
第三期,做特征工程。这里给了一个用箱线图去除3倍阶段差之外的异常值的程序,我先放在这里。def outliers_proc(data, col_name, scale=3): """ 用于清洗异常值,默认用 box_plot(scale=3)进行清洗 :param data: 接收 pandas 数据格式 :param col_name: pandas...原创 2020-03-28 21:16:56 · 166 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task2 数据分析(Exploratory Data Analysis EDA)
EDA的目标,在我看来就是在第一步了解赛题之后,进一步了解赛题提供的数据。首先是给的一些包,如下图我不熟悉的也就是seaborn和missingno了,前者是绘图,至于和matplotlib有什么不一样等会应该就知道。后者百度了一下是处理缺失值相关的。到这里其实我很好奇怎么处理这种既有连续字段(汽车功率power)又有离散字段(品牌)的数据。接下来记一些数据查看语句。...原创 2020-03-25 13:14:03 · 194 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task1 赛题理解
这是第一次搞这种数据竞赛。之前搞过一次cv类的,最后惨败,也是稀里糊涂不明白。这次立志把他弄懂!这次的任务是二手车预测,有15w条的训练集,5w条的测试集a,5w条测试集b。每一条测试数据由31列变量信息组成,其中15条是匿名列。31列中包含预测列price。一开始有三个文件。依次来看看是做什么用的就是这三个,我们用jupyter打开,用pandas读入,结果很奇怪,一看是...原创 2020-03-24 09:54:53 · 154 阅读 · 0 评论