背景:
我本身是从事过python的开发工作,接触过pandas,numpy等机器学习相关的库。但是,并没有实际意义上做过机器学习相关的项目。做此课题的目的也是为了熟悉一下机器学习的流程。
错误
先说说自己的错误吧,认识自己犯下的错误往往会更重要一些。
-
未去解读每个特征的含义。
在刚拿到这个题目时,我起初并没有仔细的去阅读题目的具体含义。这是是我认为最严重的做错。不清楚需求的情况下盲目的去下手。在遇到缺省值的情况下,未加思考的进行了缺省值的填补。在后期读懂题意之后重新做了一些特征工程上的调整,也借鉴了别人优秀的思路,算是磕磕绊绊的把特征工程完成了。
-
在使用pandas中merge函数时,出现了样本呈笛卡尔积增长的问题
起初在遇到这个问题时,IDE给我的报错是内存不足,我自己也认为是数据集过大导致的。因为前期提取了56个特征,所以我第一时间会想是不是因为样本的问题。所以在特征方面我花了大量的时间去验证。在这里我犯下了一个低级错误,在遇到问题时,没有使用debug逐步的去排除问题!!!!在经过后期的debug排查后发现,是因为自己在merge过程中合并了一个用来聚合的中间字段,导致了这样的问题。这里我又犯下了一个低级错误,代码的注释为什么在一段内容中没备注清楚!!!!