sinat_37333675-CSDN博客

原创风控学习记录

策略规则串行还是并行?前2个月，策略规则并行运行，保存数据用作后期数据分析调整规则卡点。稳定后策略规则串行跑即可，节约成本。先查三方数据，后查征信的原因：1.三方数据价格便宜，若命中，节约成本。2.提高客户体验，若三方拒绝，不会在征信上留下记录。**不要频繁查征信：**用信策略和贷中规则中，半年之后再查征信，频繁查征信贵，且会遭到客户投诉。...

2021-09-07 15:37:31 176

原创常见激活函数

常见激活函数激活函数以0为中心的收敛解释反向传播过程中，用链式法则求导，若连乘数字都小于1，则梯度越乘越小，导致梯度消失。若连乘数字大于1，则梯度越乘越大，导致梯度爆炸。

2021-03-22 17:24:13 201

原创面试必备——逻辑回归相关问题

1.手推线性回归2.手推逻辑回归3.线性回归于逻辑回归的关系？本质区别：线性回归是回归算法，输出连续值；逻辑回归是分类算法，输出离散值。相同之处：最大似然估计和梯度下降。线性回归使用最小二乘法，实际上就是在自变量与超参数确定，因变量服从正态分布的假设下，使用极大似然估计的一个化简。逻辑回归通过对似然函数学习，得到最佳参数。求解超参数过程中，都可以使用梯度下降方法。**4.交叉熵与相对熵...

2021-01-13 16:23:06 252 1

--建表create table login_table(user_id string,login_date string);--插入测试数据insert into login_table(user_id,login_date) values('001','20190301'),('001','20190302'),('001','20190304'),('001','20190305'),('001','20190306'),('002','201903

2020-12-11 17:20:55 248

原创 python易忘点记录

2020-12-09 14:25:36 66

原创 toad安装

一、在线安装pip install toad -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com（镜像速度快）二、离线安装Toad安装时需要更新其他包的版本，需要下载五个安装包：安装顺序为numpy、threadpoolctl、scikit_learn、seaborn、toad。...

2020-12-09 14:02:28 3603 1

原创 dataframe基本操作

2020-12-08 16:00:49 109

原创相对熵原理

https://www.zhihu.com/question/65288314/answer/244557337

2020-09-18 14:36:24 943

原创 GBDT和XGBoost

GBDT和XGBoosthttps://blog.csdn.net/Emma_Love/article/details/87275377

2020-09-10 15:03:50 145

原创 python——os模块

2020-09-10 14:19:09 73

原创朴素贝叶斯

2020-09-02 16:44:02 116

原创 LGB决策树可视化

1.官网下载graphivz软件http://www.graphviz.org/download/如安装路径是D:/Graphviz2.38，将D:/Graphviz2.38/bin添加入系统环境变量PATH中2.用python安装库graphviz，联网安装pip install graphviz ，离线安装先下载安装包，解压后找到setup.py文件，python setup.py install3.3.用python安装库pydotplus，同上#决策树的helloworld 使用决策树对iri

2020-09-02 10:18:10 2546

原创滚动率、Vintage、WOE、IV、LIFT、PSI、GINI

WOE(weight of envidence) 证据权重计算公式：woei=ln(badi/bad总goodi/good总)=ln(badibad总)−ln(goodigood总)woe_{i}=ln(\frac {bad_{i}/bad_{总}}{good_{i}/good_{总}})=ln(\frac {bad_{i}}{bad_{总}})-ln(\frac {good_{i}}{good_{总}})woei=ln(goodi/good总badi/bad总)=ln(bad总badi

2020-09-02 09:36:54 4081

原创 hive优化

小表join大表利用hive进行join连接操作，相较于MR有两种执行方案，一种为common join，另一种为map join ，map join是相对于common join的一种优化，省去shullfe和reduce的过程，大大的降低的作业运行的时间。common join:两个map作业读取两张表，归并为emp的格式，然后经由reducer合并。最后能获取到join的连接结果。map join:首先在本地生成一个local task 读取比较小的表，然后将表写入Hash Table File

2020-09-02 09:33:51 111

转载 KS和AUC解释

1.遇到KS=0.32，AUC=0.54问题：KS值只能反映出哪个分段是区分度最大的，不能反映出所有分段的效果。2.输出预测值在[0.002,0.04]之间，KS阈值切分问题和KS横坐标表示含义。其中最常用的是TPR和FPR。最理想的模型，当然是TPR尽量高而FPR尽量低啦，然而任何模型在提高正确预测概率的同时，也会难以避免地增加误判率。听起来有点抽象，好在有ROC曲线非常形象地表达了二者之间的关系。对于一个二分类模型，输出的最初结果是连续的；假设已经确定一个阀值，那么最初结果大于阀值时，则输出最终结

2020-08-07 17:32:06 3480 1

原创 linux命令

cat rule.sh显示所有行vim rule.sh显示所有行且可以修改文件tail -20 rule.sh显示后面20行cat -n rule.sh |grep rule显示rule所在的行sed -n '10,16p' rule.sh显示10~16行cat rule.sh |wc -l统计文件行数

2020-08-04 09:44:08 211

原创聚类算法

原型聚类——K−meansK-meansK−means输入：样本集D={x1,x2,...,xm}D=\left\{x_{1},x_{2},...,x_{m}\right\}D={x1,x2,...,xm}，聚类簇数kkk输出：簇划分过程：随机选择k个样本作为初始聚类均值向量，计算每个样本到聚类均值向量的距离，将样本划分到离均值向量最近的簇中，重新计算聚类均值向量。重复上述过程，直到聚类均值向量不再变化或者达到迭代次数。原型聚类——LVQLVQLVQ输入：样本集D={(x1,y1),(x2,

2020-07-01 16:06:52 213

原创查专利网址

国内专利：1.中国国家知识产权局专利检索与查询，访问地址 http://pss-system.cnipa.gov.cn/sipopublicsearch/portal/app/home/declare.jsp?tdsourcetag=s_pcqq_aiomsg（有点慢）2.飞镖网https://www.ipfeibiao.com/patent/（好用）3.天眼查专利（不能下载）https:/...

2020-05-08 17:17:31 1118

原创 python--MOOC笔记（第1周）

"""华氏温度：F=1.8*(C+32)摄氏温度：C=(F-32)/1.8"""TempStr=input('请输入带有符号的温度值:')if TempStr[-1] in ['F','f']: C=(int(TempStr[0:-1])-32)/1.8 print('转换后的温度是{:.2f}C'.format(C))elif TempStr[-1] in ['C',...

2020-03-02 15:48:08 281

原创 python记录--lambda,map,filter,series和DataFrame的索引和列排序

lambda函数：匿名函数，即没有具体名称的函数，允许快速定义单行函数。lambda 参数：操作运算y=lambda x:x**2print(y(10))#100g=lambda x,y,z=3:(x+y)*zprint(g(1,2,5))#15map(function, iterable)第一个参数是传入一个函数，函数可内置，可自定义，可以是匿名函数。第二个参数是一个可迭代对...

2019-11-06 00:31:38 1079

原创模型违约概率到信用评分的转化

模型违约概率到信用评分的转化定义坏好比odds=p/(1-p)P是LR计算的违约概率（即坏人的概率），1-p即好人的概率。评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式scores=A-B*ln⁡(p/(1-p))注意：B前面是负号，坏好比越大，评分值越小。若是好坏比，B前面是正号。A、B值通过将两个已知或假设的分值带入计算得到。通常情况下，需要设定两个假设：（1）给...

2019-11-05 17:55:09 3402

原创 python练习--pandas数据分析(1-2)

数据集下载地址：https://github.com/Rango-2017/Pandas_exercises非常感谢！1.探索Chipotle快餐数据– 将数据集存入一个名为chipo的数据框内– 查看前10行内容– 数据集中有多少个列(columns)？– 打印出全部的列名称– 数据集的索引是怎样的？– 被下单数最多商品(item)是什么?– 在item_name这一列中，一共...

2019-11-05 14:14:24 2328

原创 python--练习题记录(11-20)

python小白，为了提高代码能力，打算做100道练习题，写博客记录自己的学习之路，希望不要半途而废，加油加油加油！

2019-10-31 16:15:12 361

原创 python--练习题记录(6-10)

python小白，为了提高代码能力，打算做100道练习题，写博客记录自己的学习之路，希望不要半途而废，加油加油加油!

2019-10-29 17:45:35 214

原创 python--练习题记录(1-5)