最近准备开始韬光养晦,磨砺一下自己的基础知识了。也同大家一起提升自己,文章内容多是自己见解,有可以指点探讨得可以及时指出。
变量衍生的这个课题其实比较庞大,算法结果的好坏90%以上是来自于数据。首先会有一些常规的数据清洗的工作要做,而数据清洗的时间又占用了整个项目的80%,那么我们从这里开始。
数据清洗
代码脚本基于python3实现,个人最近由r转向python,老实说如果都有同样的功能的话python会实现起来更方便一点。
df.head()
首先,观测前几段的数据形式。如果不加限制这个脚本会展示前五行的字段。可以让我们对数据有一个初步认识,这里要提到一个基本的小技巧。借助numpy的帮助可以类似excel里面的if判断一样,可以简单的将你需求字段变成目标字段,标记为0,1。
import numpy as np
df['label']=np.where(df['over_day']>7,1,0)
当我们做出建模所需的'label'字段,也就是常规问题中的'y'时候,我们可能需要观测一下,'label'分布。
sum(df['label'])/len(df['label'])
这个时候会给出一个相应的目标变量占比,然后我们的数据需要根据数据的基本类型去将数据划归为数值类型和类别类型,