经手了第一个算是类似项目的数据吧。(老师,这数据太干净了)
实话说,没想到自己会卡在数据预处理这里,现在想来也对,方法就那些,大不了来个集成化,最后谁更好,就看谁的数据处理的更完美。
通过删除Time列和转化一下At列,然后检测一下离群值,删去相关性不高的列,然后进行分箱处理,再往下来却发现直接0.99了,这算是方法错了吗?自己感觉不到。
现在想来,建立关联规则,也许方法之一,但实用吗?老师最后提了一嘴如果数据更多怎么办?
对呀,我现在只处理二十来列数据,如果数据更多,不说结果怎样,死用关联规则,电脑也许都不一定跑得起来。
=========================================================================
回顾了一下自己之前写的,突然感觉,自己好像钻了死胡同。
老板要的是如何选择,如果所有数据,均对实际需求有极大的相关性,都能影响结果,那么我们机器学习算是什么也没有做。‘
所有,正常来说,我一开始的做法是没有问题的,去掉无用数据,处理噪音、离群值。然后进行分箱、再检测相关性。
但是如果有很多项都有很高的相关性,我们就应该要进行关联规则,简单的说,择优。是个笨方法,但我想到的却只有这个。我有一亿条数据,均对我的需求有高影响,但我不可能从一亿选择中,做出选择,写手应该给我缩减选项。
那么关联规则如何简化,应该要回去在学一下cam