常识让世界充满AI

最新推荐文章于 2022-08-15 23:52:46 发布

123liluky

最新推荐文章于 2022-08-15 23:52:46 发布

阅读量4.9k

点赞数

本文链接：https://blog.csdn.net/u013711082/article/details/70146939

版权

-5、https://sci-hub.cc 下载论文

-4、问题等于机遇。问题抽象为可以解决执行的问题，例如：自动驾驶，细化为特定场景下的自驾车，如观光车，公交车等。公司的核心是数据。

-3、控制论是人工智能的雏形。机器学习（1990-至今）。机器人是一个算法，一段代码。

-2、查看电脑使用内存和CPU：状态栏右键任务管理器性能

-1、一次随机逻辑回归选进模型的13个变量，iv从0.06到0.19不等，缺失率从21%到79%不等，KS=24（KS值是在模型中用于区分预测正负样本分隔程度的评价指标。一般不能低于30，低于30说明模型区分好坏的能力就是太弱了。）。删除相关系数>0.5的5个变量后，KS还是24。

随机逻辑回归rlr每次选择变量的结果可能有细小的差异。

PCA将2000+变量降维到11后，用逻辑回归建模，KS由不降维的31%降低到20%。

变量数太多容易过拟合，如100以上；太少容易欠拟合；20几个变量，可以权衡。

0、样本数不到500，iv出现了>0.3，但是WOE没规律。现在看来，命中样本数至少两三千，可以得到较好的iv和woe。

1、信用卡套现：套出现金。

正常的信用卡消费是刷卡付帐,得到商品,你再去银行还欠款.
刷信用卡后,商家直接把刷卡金额以现金的方式给你,之后你再去银行还信用卡欠款。

2、样本数量的选取

较小规模 <1千  选30%样本

中等规模 <15万  选10%样本

大规模 >15万选1%

非常大规模 >1000万选0.025%

3、编码转换

notepad++ 格式->转utf-8编码为无BOM编码格式

4、linux操作运行bash文件

cd /home/lilu/tmp_0505;

bash tmp_all.sh

5、linux操作2

mysql -utel_manage_user -ptel_manage_passwd -Ddb_tel_manage -N -e "select keyword,keyword_type from dun_template_keyword" > key_word_list.txt

6、linux操作3

合并test文件夹下0开头的文件后，传到python程序中运行，结果输出到目标文件cat test/0* |python new_rule1.py > result_01

5、编辑-文档格式转换-转换为UNIX格式

将windows格式文件转换为unix格式

6、某变量的VIF越大，说明该变量与其他变量越有可能存在共线性

7、a loga 的iv结果一样；数值变量转化为是否变量，iv可能会高；两个本来0.1的变量，相加的结果的iv可能会高。

iv高，相关性不一定高。corr 默认是皮尔森系数。[0,0.3]不存在线性相关；(0.3,0.5]低度线性相关；(0.5,0.8]显著线性相关；高度线性相关。

覆盖度低，不到10%，iv不会高，0.05以下。MaxOrgType=1,bad占比15/31，但是iv=0.015，因为命中率低。

变量做加减乘除，iv变化都不一定的，但是比如TNumsCon_undun=dtlNums-TNumsCon与dtlNums的斯皮尔曼相关系数是1，完全相关；TNumsCon/dtlNums与TNumsCon相关系数是0.6，但是前者的iv=0.12，后者的iv=0.05。

移除VIF大于5的变量在填好WOE之后。

python rlr筛选变量，筛得到了vif<10的变量。

WOE接近0，表示该组内的样本和总体样本好坏比例相当。WOE单调或者一个波峰或波谷可以接受。

1：最大似然估计值分析：Pr>卡方值（参数估计的p值）：表示不该纳入模型的概率

p值>0.3的变量要移出模型

2：优比估计值：观察置信限是否包含1，若包含1，表示在给定的置信限内，无法确认变量是否能够提高模型值，判断变量对模型的贡献度很低

ln点估计值的对数=模型的参数值（不接近0好）所以，点估计值不接近1好

3：训练集KS=0.5正常，测试集降到0.25

4：在命中的申请人50%上算基于催收号码的变量的iv，0.2左右的很多；在全量申请人上基于催收号码的变量的iv，只有0.1左右。iv跟覆盖度密切相关。

5：泰坦尼克：女性和男孩（男性、年龄<10）存活率高；男性、Pclass=1存活率高。

6、假设检验：t检验（检验数据总体均值为0时t统计量的值0） prt:数据总体均值为0的概率是多少。

7、选1-R^2小的变量：分母是与其他类的差异，分子是与自己内部的差异。

8、评价模型：R^2；Hosmer-Lemeshow检验；

一、单变量统计特性和图形分布

检查缺失值，极端值；极端值超过总体10%，考虑分群独立建模；极端值可用缺失值、中位数、均值、删除等替代处理。

连续变量的正常取值范围为均值+-3倍标准差。

名义变量建议将频数低的类别合并为一个新的类别。

二、变量与y、其他变量之间是否存在相关性、关联性

两个连续变量的相关性：皮尔森系数(数据极端值会影响结果)，斯皮尔曼系数(用等级代替具体数值，所以数据极端值不影响结果) 接近1，相关。

有的变量Spearman相关系数，比皮尔森系数还高，也有比Kendall系数高的。所以这三个相关系数间不存在肯定的大小关系。

两个名义变量的相关性：列联表，皮尔森卡方统计量(Chi-Square) P值接近0，相关

两个二元名义变量的相关性：概率比检查置信区间不包含1。接近1，相关。

KS计算：

AUC计算：

SVM分类效果图：

123liluky

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常识让世界充满AI

1、信用卡套现：套出现金。正常的信用卡消费是刷卡付帐,得到商品,你再去银行还欠款.刷信用卡后,商家直接把刷卡金额以现金的方式给你,之后你再去银行还信用卡欠款。
复制链接

扫一扫

常识 让世界充满AI

常识让世界充满AI