1、昨天早上一来写小结都花了1个多小时,到11点3分结束,期间我在小结pandas相关用法的过程中,领悟了新的建空dataframe,然后不断append的方法
2、小结完后,监控了一下坏账和模型运行状况
3、上午小结完后,开始着手,合作方黑名单的问题,进行了一些设计和思考,还有处理一些杂事,比如解答boss的疑惑,差不多上午结束
4、下午继续合作方黑名单的问题,进行了一系列修改,没什么新东西,就是个设计问题,关于版本控制倒是有一个新东西
- 我昨天git commit的时候报错,因为当前版本不是最新,但是git pull,又出错,好像不是出错,是一个警告,版本push上去的,当时才睡醒,有点晕,流程我记不太清楚了,反正最后pull下来版本里面存在冲突,源代码中有标注,我是进到代码里修改了冲突的地方,然后上传,整个过程有点晕,下次遇到的时候要好好梳理一下
6、下午还去搜寻了一个问题,joblib.dumps这个方法会生成很多npy文件,这些是numpy结构,可以让模型快速序列化和反序列化,也可以设置compress参数,使得dumps过后的文件就一个,但是效率就和传统的pickle没差
7、开始参考网络上的python woe IV 实现程序,昨天最后的时间基本都在分析那个程序,学习了很多numpy的很多用法
- np.array([0] * 10, dtype=int)生成10个0的一维数组
- stats.scoreatpercentile找分位数的插值点,我没太看懂这个方法的机制,但是找出来的点可以作为不等式的条件来分隔数组,用法如stats.scoreatpercentile(x,20),找出来的值可以直接写成不等式筛选,x[(x >= point1) & (x <= point2)]类似于dataframe,一种bool数组的筛选方法,还有一种是用np.where返回的是满足条件的序号,x[np.where((x >= point1) & (x <= point2))],序号数组一个可以进行筛选,而且np.where出来的是数组的tuple,元素只有1个,np.in1d(x,x1),看x中的元素是否在x1中,返回的是bool array,这里mask是一个bool array,res[mask] = i , 只对mask中True的地方赋值
- from sklearn.utils.multiclass import type_of_target,type_of_target可以检查变量类型,连续或二分类等
- 一维数组还有种求和方式比如(y == event).sum()