业务相关知识整理
从菜鸟做起呀~
先立个flag,一周有三四篇文章,对所看材料的整理
展开
-
每日整理---模型监控方法以及评分卡模型
模型监控以及参数怎么使用模型的监控主要是要看在线上的模型评分是否稳定,但是当参数说明模型评分有变化时,具体是进件整体的变化,还是某个特征源的变化并不能知道。所以要更改阈值,还是重训模型,还是不做改变,还需要具体问题具体分析。具体调研两种参数K-L相对熵是目前打分对于标准分布的偏差(有做校准,将校准分布作为标准分布)需要注意的是kl相对熵不满足距离参数中对称的特征,所以KL相对熵...原创 2018-10-23 11:10:27 · 4355 阅读 · 1 评论 -
评估三方数据时遇到的一些代码和模型上的问题
1、特征名称编码问题,特别是有中文的时候,容易遇到utf-8和unicode编码不能比较的问题在目前python2的环境下,先对所有先运行var.encode(encoding),若本来是unicode编码会报错,可以先判断计算机内存中,统一使用Unicode编码,需要保存或者传输时,转换成UTF8编码 而 Python2 默认编码是 ASCII编码。然而,众所周知,在需要需要转换的场景...原创 2018-10-24 20:17:24 · 247 阅读 · 0 评论 -
工作总结-特征工程
连续两周做特征工程1、数据预处理,这是个相当麻烦的过程,尤其数据源给出的字段没有实际含义需要手动直接命名的时候。注意点:命名如果太多就别命了,血与泪的教训 处理json文件千万别把w写成r,同样是血与泪的教训 当返回值是list格式时,为了保存全部信息,首先要做one-hot,另外保留原始list的值(防止后边有人要补充特征) 在没有进行特征筛选前,能做的特征可以都做 Pyth...原创 2018-11-21 18:51:56 · 185 阅读 · 0 评论 -
数据处理中的Bug
慎用excel处理保存数据,会有数据类型转换 one-hot类型特征一定要注意是str还是int 若转换为float含有.0,导致特征名称不同原创 2019-05-08 19:31:51 · 166 阅读 · 0 评论