这两天遇到的scikit-learn的问题

scikit-learn的onehotEncoder,是只能根据整数来进行one-hot编码的,然后我的数据很多都是,string,这样子有一个办法,就是先LableEncoder再onehotEncoder,然而这样子必须一行一行算,是不能一个矩阵来的,这个办法数据量小还可以,多了的话就哭了......

然后这个办法解决用pandas的get_dummies。这个可以直接做one-hot。然而,对mysql和panda,一个比较坑的地方(也不能算坑只能说我比较怂),mysql到python里都是元组的形式,而panda是基于numpy的,操作基本都是list,所以注意这个地方比较容易出错.....

希望我能好好看看,panda还有scikit-learn.....还有mysql,这几个问题都在于要多用.....


scikit-learn,这是一个神奇的工具,具体的都在官方文档里,用google可以google到一些例子,数据预处理,建模,验证(算准确率AUC)都是有函数的,先把逻辑回归这个搞一搞,predict_proba是预测准确率,predict是阈值设成了0.5然后大于0.5就是1,小于就是0,是一个分类,然后可以score评估,还可以用准确率(这个是另一个函数等我代码写完......加了注释传上来......),然后还可以算AUC,ROC......

http://blog.csdn.net/pzy20062141/article/details/48711355

http://blog.csdn.net/chjjunking/article/details/5933105\

这两个是说AUC和ROC的,好好看看,现在只能理解AUC越大越好也是太弱了......

然后http://www.cnblogs.com/kylinlin/p/5309703.html是一个感觉很好的scikit-learn的逻辑回归例子。


scikit-learn,可以输入one-hot格式的编码,还有别的咩?这个要找找.......


学无止境啊......

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值