常识 让世界充满AI

-5、https://sci-hub.cc   下载论文

-4、问题 等于 机遇 。 问题抽象为可以解决执行的问题,例如:自动驾驶,细化为特定场景下的自驾车,如观光车,公交车等。    公司的核心是数据。

-3、控制论是人工智能的雏形。  机器学习(1990-至今)。机器人是一个算法,一段代码。

-2、查看电脑使用内存和CPU:状态栏右键 任务管理器 性能

-1、一次随机逻辑回归选进模型的13个变量,iv从0.06到0.19不等,缺失率从21%到79%不等,KS=24(KS值是在模型中用于区分预测正负样本分隔程度的评价指标。一般不能低于30,低于30说明模型区分好坏的能力就是太弱了。)。删除相关系数>0.5的5个变量后,KS还是24。

随机逻辑回归rlr每次选择变量的结果可能有细小的差异。

PCA将2000+变量降维到11后,用逻辑回归建模,KS由不降维的31%降低到20%。

变量数太多容易过拟合,如100以上;太少容易欠拟合;20几个变量,可以权衡。

0、样本数不到500,iv出现了>0.3,但是WOE没规律。现在看来,命中样本数至少两三千,可以得到较好的iv和woe。

1、信用卡套现:套出现金。

正常的信用卡消费是刷卡付帐,得到商品,你再去银行还欠款.
刷信用卡后,商家直接把刷卡金额以现金的方式给你,之后你再去银行还信用卡欠款。
2、样本数量的选取
较小规模 <1千  选30%样本
中等规模 <15万  选10%样本

大规模 >15万 选1%

非常大规模 >1000万  选0.025%

3、编码转换

notepad++   格式->转utf-8编码为无BOM编码格式

4、linux操作 运行bash文件

cd /home/lilu/tmp_0505;

bash tmp_all.sh

5、linux操作2

mysql -utel_manage_user -ptel_manage_passwd -Ddb_tel_manage -N -e "select keyword,keyword_type from dun_template_keyword" > key_word_list.txt

6、linux操作3

合并test文件夹下0开头的文件后,传到python程序中运行,结果输出到目标文件cat test/0* |python new_rule1.py > result_01

5、编辑-文档格式转换-转换为UNIX格式

将windows格式文件转换为unix格式

6、 某变量的VIF越大,说明该变量与其他变量越有可能存在共线性

7、a loga 的iv结果一样;数值变量转化为是否变量,iv可能会高;两个本来0.1的变量,相加的结果的iv可能会高。

iv高,相关性不一定高。corr 默认是皮尔森系数。[0,0.3]不存在线性相关;(0.3,0.5]低度线性相关;(0.5,0.8]显著线性相关;高度线性相关。

覆盖度低,不到10%,iv不会高,0.05以下。MaxOrgType=1,bad占比15/31,但是iv=0.015,因为命中率低。

变量做加减乘除,iv变化都不一定的,但是比如TNumsCon_undun=dtlNums-TNumsCon与dtlNums的斯皮尔曼相关系数是1,完全相关;TNumsCon/dtlNums与TNumsCon相关系数是0.6,但是前者的iv=0.12,后者的iv=0.05

移除VIF大于5的变量在填好WOE之后。

python rlr筛选变量,筛得到了vif<10的变量。

WOE接近0,表示该组内的样本和总体样本好坏比例相当。WOE单调或者一个波峰或波谷可以接受。

1:最大似然估计值分析:Pr>卡方值(参数估计的p值):表示不该纳入模型的概率 

p>0.3的变量要移出模型
2:优比估计值:观察置信限是否包含1,若包含1,表示在给定的置信限内,无法确认变量是否能够提高模型值,判断变量对模型的贡献度很低
ln点估计值的对数=模型的参数值(不接近0好)所以,点估计值不接近1好
3:训练集KS=0.5正常,测试集降到0.25
4:在命中的申请人50%上算基于催收号码的变量的iv,0.2左右的很多;在全量申请人上基于催收号码的变量的iv,只有0.1左右。iv跟覆盖度密切相关。

5:泰坦尼克:女性和男孩(男性、年龄<10)存活率高;男性、Pclass=1存活率高。

6、假设检验:t检验(检验数据总体均值为0时t统计量的值0)  prt:数据总体均值为0的概率是多少。

7、选1-R^2小的变量:分母是与其他类的差异,分子是与自己内部的差异。

8、评价模型:R^2;Hosmer-Lemeshow检验;

一、单变量统计特性和图形分布

检查缺失值,极端值;极端值超过总体10%,考虑分群独立建模;极端值可用缺失值、中位数、均值、删除等替代处理。

连续变量的正常取值范围为均值+-3倍标准差。

名义变量建议将频数低的类别合并为一个新的类别。

二、变量与y、其他变量之间是否存在相关性、关联性

两个连续变量的相关性:皮尔森系数(数据极端值会影响结果),斯皮尔曼系数(用等级代替具体数值,所以数据极端值不影响结果)     接近1,相关。

有的变量Spearman相关系数,比皮尔森系数还高,也有比Kendall系数高的。所以这三个相关系数间不存在肯定的大小关系。

两个名义变量的相关性:列联表,皮尔森卡方统计量(Chi-Square)  P值接近0,相关

两个二元名义变量的相关性:概率比        检查置信区间不包含1。接近1,相关。


KS计算:


AUC计算:

SVM分类效果图:


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值