2017.05.10回顾 numpy学习其他python woe iv实现参考

最新推荐文章于 2024-03-15 19:31:55 发布

strwolf

最新推荐文章于 2024-03-15 19:31:55 发布

阅读量6.5k

点赞数

分类专栏：日记 python

本文链接：https://blog.csdn.net/strwolf/article/details/71600707

版权

290 篇文章 0 订阅

订阅专栏

70 篇文章 0 订阅

订阅专栏

1、昨天早上一来写小结都花了1个多小时，到11点3分结束，期间我在小结pandas相关用法的过程中，领悟了新的建空dataframe，然后不断append的方法

2、小结完后，监控了一下坏账和模型运行状况

3、上午小结完后，开始着手，合作方黑名单的问题，进行了一些设计和思考，还有处理一些杂事，比如解答boss的疑惑，差不多上午结束

4、下午继续合作方黑名单的问题，进行了一系列修改，没什么新东西，就是个设计问题，关于版本控制倒是有一个新东西

我昨天git commit的时候报错，因为当前版本不是最新，但是git pull，又出错，好像不是出错，是一个警告，版本push上去的，当时才睡醒，有点晕，流程我记不太清楚了，反正最后pull下来版本里面存在冲突，源代码中有标注，我是进到代码里修改了冲突的地方，然后上传，整个过程有点晕，下次遇到的时候要好好梳理一下

5、开始继续昨天的程序，准备只找gini index中top5的记录，最后我分析发现，就问题本身来说，我的方法才是比较高效的，学习了下dataframe的排序，df.sort(columns='xxx',inplace=True)，但是这个方法有一个警告，该方法即将弃用

6、下午还去搜寻了一个问题，joblib.dumps这个方法会生成很多npy文件，这些是numpy结构，可以让模型快速序列化和反序列化，也可以设置compress参数，使得dumps过后的文件就一个，但是效率就和传统的pickle没差

7、开始参考网络上的python woe IV 实现程序，昨天最后的时间基本都在分析那个程序，学习了很多numpy的很多用法

np.array([0] * 10, dtype=int)生成10个0的一维数组
stats.scoreatpercentile找分位数的插值点，我没太看懂这个方法的机制，但是找出来的点可以作为不等式的条件来分隔数组，用法如stats.scoreatpercentile(x,20)，找出来的值可以直接写成不等式筛选，x[(x >= point1) & (x <= point2)]类似于dataframe，一种bool数组的筛选方法，还有一种是用np.where返回的是满足条件的序号，x[np.where((x >= point1) & (x <= point2))]，序号数组一个可以进行筛选，而且np.where出来的是数组的tuple，元素只有1个，np.in1d(x,x1)，看x中的元素是否在x1中，返回的是bool array，这里mask是一个bool array，res[mask] = i , 只对mask中True的地方赋值
from sklearn.utils.multiclass import type_of_target，type_of_target可以检查变量类型，连续或二分类等
一维数组还有种求和方式比如(y == event).sum()

8、这个程序核心的地方都看完了，还有些地方没看，最后半小时主要读了一些行业资讯，一些其他人写的建模相关的心得等