利用gridsearchcv进行交叉验证参数调优实战

        用sklearn包进行机器学习是一件很舒服的事情,以往写一页的代码,用sklearn的一个参数就搞定,多么酸爽。然而由于包是人家的,所以参数设置什么的咱们是被动的。只有好好读官方文档才能搞清楚每个参数的意义是什么,这是调参前的重要武装。

大家都知道sklearn调参有一个核武器---gridsearchcv,它存在的意义就是自动调参,只要把参数输进去,人家乖乖地就把最优化的结果和参数跑了出来。然而,在小数据集上还可以小打小闹。一旦数据的量级上去了,估计电脑跑废了也跑不出结果。这个时候就是需要动脑筋了。在这里分享一个快速调优的方法---坐标下降。有仁兄说了,坐标下降我知道,但是那也得遍历循环呀,还不是废电脑。好吧,那就称它伪坐标下降法,它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化。再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优,但是省时间省力,巨大的优势面前,还是试一试吧,后续可以再拿bagging再优化。

        拿kaggle上最经典的数据Digit Recognizer为例,用RandomForestClassifier算法,采用gridsearchcv自动调参交叉验证计算准确度。

   具体代码见我的github链接:https://github.com/AlanLin2015/Project-Code/tree/master/kaggle-Digit%20Recognizer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值