2017.05.10回顾 numpy学习 其他python woe iv实现参考

70 篇文章 0 订阅

1、昨天早上一来写小结都花了1个多小时,到11点3分结束,期间我在小结pandas相关用法的过程中,领悟了新的建空dataframe,然后不断append的方法

2、小结完后,监控了一下坏账和模型运行状况

3、上午小结完后,开始着手,合作方黑名单的问题,进行了一些设计和思考,还有处理一些杂事,比如解答boss的疑惑,差不多上午结束

4、下午继续合作方黑名单的问题,进行了一系列修改,没什么新东西,就是个设计问题,关于版本控制倒是有一个新东西

  • 我昨天git commit的时候报错,因为当前版本不是最新,但是git pull,又出错,好像不是出错,是一个警告,版本push上去的,当时才睡醒,有点晕,流程我记不太清楚了,反正最后pull下来版本里面存在冲突,源代码中有标注,我是进到代码里修改了冲突的地方,然后上传,整个过程有点晕,下次遇到的时候要好好梳理一下
5、开始继续昨天的程序,准备只找gini index中top5的记录,最后我分析发现,就问题本身来说,我的方法才是比较高效的,学习了下dataframe的排序,df.sort(columns='xxx',inplace=True),但是这个方法有一个警告,该方法即将弃用

6、下午还去搜寻了一个问题,joblib.dumps这个方法会生成很多npy文件,这些是numpy结构,可以让模型快速序列化和反序列化,也可以设置compress参数,使得dumps过后的文件就一个,但是效率就和传统的pickle没差

7、开始参考网络上的python woe IV 实现程序,昨天最后的时间基本都在分析那个程序,学习了很多numpy的很多用法

  • np.array([0] * 10, dtype=int)生成10个0的一维数组
  • stats.scoreatpercentile找分位数的插值点,我没太看懂这个方法的机制,但是找出来的点可以作为不等式的条件来分隔数组,用法如stats.scoreatpercentile(x,20),找出来的值可以直接写成不等式筛选,x[(x >= point1) & (x <= point2)]类似于dataframe,一种bool数组的筛选方法,还有一种是用np.where返回的是满足条件的序号,x[np.where((x >= point1) & (x <= point2))],序号数组一个可以进行筛选,而且np.where出来的是数组的tuple,元素只有1个,np.in1d(x,x1),看x中的元素是否在x1中,返回的是bool array,这里mask是一个bool array,res[mask] = i , 只对mask中True的地方赋值
  • from sklearn.utils.multiclass import type_of_target,type_of_target可以检查变量类型,连续或二分类等
  • 一维数组还有种求和方式比如(y == event).sum()
8、这个程序核心的地方都看完了,还有些地方没看,最后半小时主要读了一些行业资讯,一些其他人写的建模相关的心得等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值