自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(674)
  • 收藏
  • 关注

原创 风控ML[19] | 风控建模中的LR模型为什么出场率这么高?

00 Index01 LR是什么?02 LR在金融领域有哪些优势03 LR的算法推导过程04 LR的重要参数05 LR与评分卡06 总结一下???? 01 LR是什么?LR全称是 Logistic Regression,中文名为逻辑回归模型。虽然名字里带有“回归”二字,但其实是属于分类模型,属于线性分类器。既然LR里有“回归”,那就说明了它和回归多少有些渊源了。我们知道线性回归模型的一般表达形式如下:θ...

2023-03-11 07:22:57 596 1

原创 特征锦囊:使用嵌入法(Embedding)对高维特征进行降维

今日锦囊特征锦囊:使用嵌入法(Embedding)对高维特征进行降维???? Index01 基于集成树的特征重要度筛选02 基于LR的L1正则化特征筛选Embedding方法是需要将待筛选的特征一并嵌入到模型中去构建,然后通过模型对特征的评价作为筛选依据,一般来说有集成树的重要度筛选(可以基于分裂次数多少、或者基尼增益、或者cover值等)、以及LR中L1正则化特征筛选。01 基于集成树的特征重要度筛...

2023-03-08 08:00:45 944

原创 特征锦囊:使用包裹法(Wrapper)对高维特征进行降维

今日锦囊特征锦囊:使用包裹法(Wrapper)对高维特征进行降维???? Index原理与实现原理与实现Wrapper方法是根据目标函数(一般为预测效果评分),每次选择若干N个特征,或者是剔除若干K个特征。它与Filter法的区别就是,Wrapper的特征选择是直接把最终将要使用的模型的性能指标作为特征子集的评价标准,它的目的在于选择给定模型最有效果的特征子集。常见的Wrapper法有RFE、SFS等。...

2023-03-07 06:53:30 417

原创 特征锦囊:使用过滤法(Filter)对高维特征进行降维

今日锦囊特征锦囊:使用过滤法(Filter)对高维特征进行降维???? Index01 方差筛选02 缺失率筛选03 同质性筛选04 IV值筛选05 PSI筛选06 相关性/共线性筛选07 卡方检验特征选择中的Filter法是根据特征与特征之间的关系、特征与目标之间的关系来计算相关指标,从而量化特征效果来过滤低效或者不重要的特征。它是先对数据集进行特征选择,然后再训练模型,而且特征选择的过程与后续的模型...

2023-03-05 16:21:18 436

原创 特征锦囊:对有序类别特征进行映射处理

今日锦囊特征锦囊:对有序类别特征进行映射处理???? Index直接上代码???? 直接上代码有些算法对有序分类变量(ordinal feature)的解释还是不行的,我们需要将其转为整型数值。unfortunately,并没有能够直接调用的方法来自动得到正确顺序的有序分类变量。因此,我们要自己定义映射函数,把带有“顺序属性”的类别变量进行映射,转化成数值型变量。比如下面的案例,这4个变量(特征)中,【尺寸】...

2023-03-01 06:54:15 168

原创 特征锦囊:数据归一化Normalization与标准化Standardization

今日锦囊特征锦囊:数据归一化Normalization与标准化Standardization???? Index理论代码实现???? 理论知识数据归一化与标准化是预处理阶段的关键步骤,但常常被遗忘。虽然存在决策树和随机森林这种是少数不需要特征缩放的机器学习算法,但对于大部分机器学习算法和优化算法来说,如果特征都在同一范围内,会获得更好的结果。你想象一下有两个特征,一个特征的取值范围是[1,10],另一个特征的...

2023-02-06 05:42:05 351

转载 《pytorch食用指南》吃货算法工程师的算法经验

Hello相信每一个人都有着不得不提的圈内好友,今天给大家介绍一位我的好友——云哥,一位资深的吃货算法工程师????。他毕业于北京吃饭大学理论物理专业,是公众号算法美食屋的主理人,创作有《10天吃掉那只pyspark》,《20天吃掉那只pytorch》,《30天吃掉那只tensorflow2 》等开源教程。云哥的教程以 don’t let me think为风格追求,在github上受到读者广泛喜爱,获...

2022-08-27 10:50:40 352

原创 风控ML[18] | 风控建模中GBDT和XGBoost怎么调优

00 Index01 GBDT和XGBoost的原理介绍02 GBDT和XGBoost的异同点分析03 什么风控建模场景下常用这两个明星算法?04 GBDT的评估与调参思路05 XGBoost的评估与调参思路06 总结一下???? 01 GBDT和XGBoost的原理介绍我们都知道这两个算法都属于Boosting算法,所谓的Boosting算法就是从一个初始权重的基弱学习器进行模型训练,根据模型的学习误...

2022-08-24 23:25:51 785

原创 风控ML[17] | 风控建模中怎么做特征降维

00 Index01 为什么要做特征降维?02 主成分分析PCA原理与实现03 线性判别分析LDA原理与实现04 特征选择之过滤法(Filter)原理与实现05 特征选择之包裹法(Wrapper)原理与实现06 特征选择之嵌入法(Embedding)原理与实现07 总结一下???? 01 为什么要做特征降维?当我们在用LR(逻辑回归)做评分卡的时候,其实遇到需要特征降维的机会并...

2022-08-02 11:00:24 419

原创 风控ML[16] | 风控建模中怎么做拒绝推断

00 Index01 什么是拒绝推断?02 为什么要做拒绝推断?03 什么时候做拒绝推断?04 做拒绝推断都有哪些方法?05 验证拒绝推断效果的方式06 总结一下???? 01 什么是拒绝推断拒绝推断要解决的问题就是去推断那些被拒绝的客户,如果放贷的话,后续的贷后表现是什么样子,是好样本,还是坏样本?并把推断的结果,加入到建模样本中用于丰富样本的多样性,缩小与总体分布之间的差异...

2022-07-27 21:28:38 965

转载 年薪100w的风控到底需要懂什么?

大家好,我是小伍哥,周末了,聊点轻松的话题。作为风控的同学,工作的时间长了,可能会遇到瓶颈,职业或者薪资上升都比较迷茫,特别是100w(很多已经100+的大佬可以离开了)这个坎,这个时候怎么办呢?其实查看各个企业的岗位需求,是个非常好的方法(转行的同学更需要看)。如果你的年薪在50-80w,,想往100w+冲一冲,但是又不知道学啥,那可以找到对应的岗位,并认真解读,就知道...

2022-04-17 11:01:39 216

转载 复杂网络在信用风险中的实践

在信贷领域主要有两种风险:欺诈风险:借款人的目的就是骗贷。信用风险:又称违约风险,是借款人因各种原因,不愿或无力履行合同条件而构成违约,致使平台遭受损失。针对信用风险,需要对借款人的财务状况、还款意愿、履约能力等各方面因素综合量化评估,并根据风险等级制定不同的差异化定价(不同额度利率)和策略。白话一点的解释就是:业务:需要训练一个模型,去预测借款人违约概率,并根据违约概率...

2022-04-13 18:16:38 343

转载 认认真真推荐几个AI与数据方向的公众号

“三人行,必有我师焉”,学习就是要从别人身上学到好的。今天特意给大家推荐10个优质公众号,目前属于活跃度非常高的几个原创公众号,涵盖了python和AI,重点是他们还坚持在原创技术免费分享的第一线!SQL数据库开发专注数据相关领域,主要分享MySQL,数据分析,Python,Excel 等相关技术内容,关注回复「1024」获取资源大礼包。点击上方名片可关注深度学习与图网络...

2022-04-12 15:11:33 408

原创 风控ML[15] | 风控模型报告以及上线后需要监控的内容

一个优秀的模型上线报告以及一个优秀的上线后模型监控报表,在我们日常风控建模中是非常的常用并且有用的,今天这个话题就来和大家聊聊怎么去制作优秀的模型上线报告以及上线后的模型监控报表,主要聊聊思路,先要有一个全局的感受,具体实现放在下一期吧。以下内容均基于自己浅薄的经历提炼的,如有纰漏,欢迎指正或补充哦,欢迎交流~00 Index01 聊聊为什么要做这件事02 标配的风控模型...

2022-04-11 21:35:55 2722 1

转载 认认真真推荐几个高质量人工智能方向的公众号

“三人行,必有我师焉”,学习就是要从别人身上学到好的。今天特意给大家推荐10个优质公众号,目前属于活跃度非常高的几个原创公众号,涵盖了python和AI,重点是他们还坚持在原创技术免费分享的第一线!SQL数据库开发专注数据相关领域,主要分享MySQL,数据分析,Python,Excel 等相关技术内容,关注回复「1024」获取资源大礼包。点击上方名片可关注深度学习与图网络...

2022-04-08 11:51:00 325

转载 异常检测算法之(LOF)-Local Outlier Factor

本篇和大家介绍一个经典的异常检测算法:局部离群因子(Local Outlier Factor),简称LOF算法。背景Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et. al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一...

2022-04-06 19:58:53 1845

原创 风控ML[14] | 风控中的异常检测原理与应用

今天来介绍一下风控中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。00 Index01 异常检测的概念02 异常检测的难点03 异常检测的分类及常见算法01 异常检测的概念异常检测(Anomaly Detection 或 Outlier Detection),又称为离群...

2022-04-01 21:46:48 1475

转载 Github上的10个数据科学和机器学习知识库

GitHub 不仅是目前最流行的代码管理工具之一,也是普及开源文化的最大贡献者的平台。在本文中将介绍一些对数据科学和机器学习爱好者最有用的 Github 代码库。(排名顺序不分先后)1、The Algorithm数据结构是计算机科学中最流行的词,可能紧随其后的是数据科学。但是每个计算机科学专业的学生都必须了解数据结构,如果你打算在该领域从事长期职业,那么它是最重要的学习之...

2022-03-27 15:29:08 263

转载 [Formula&Excel&Python] 一次指数平滑、二次指数平滑、三次指数平滑(Holt-Winters)...

指数平滑由移动平均发展而来,和指数移动平均有点相似,也可认为是一种特殊的加权移动平均。按平滑的次数,指数平滑可分为一次指数平滑、二次指数平滑、三次指数平滑。移动平均除了简单预测外另在股市中作为支撑线发光发热;指数平滑主要用于预测,在各个领域应用非常广泛,是最常用的预测方法之一。一次指数平滑:适用于序列没有趋势和季节性特征二次指数平滑:适用于序列有趋势特征但无季节性特征三次...

2022-03-23 21:48:59 1909

转载 时间序列平稳性检验方法汇总

时间序列平稳性检验方法,可分为三类:图形分析方法简单统计方法假设检验方法一、图形分析方法图形分析方法是一种最基本、最简单直接的方法,即绘制图形,肉眼判断。可直接可视化时间序列数据,也可以可...

2022-03-20 12:28:36 2675

转载 7大经典回归模型总结

作者:Sunil Ray(译者:刘帝伟)来源:csdn今天给大家介绍机器学习建模中7大经典的回归分析模型。 什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和...

2022-03-13 17:30:02 3814

转载 一年级阿里算法工程师的工作总结

来源:知乎@shane miao最近看到一篇阿里算法工程师分享的一年工作总结,看完觉得很有借鉴意义,分享给大家~20年5月到现在入职阿里已经快一年了,一年之中也做了几个项目,期间趟过了不少...

2022-03-09 22:04:38 136

转载 关联规则-策略挖掘中必不可少的算法

一、关联规则概述1993年,Agrawal等人在首先提出关联规则概念,迄今已经差不多30年了,在各种算法层出不穷的今天,这算得上是老古董了,比很多人的年纪还大,往往是数据挖掘的入门算法,但...

2022-03-07 19:03:40 1202 1

转载 两种常见的周期性特征,时序必知强特

来源:kaggle竞赛宝典在时间序列问题中,周期特征是异常重要的,例如:地铁流量预测中的周期性,每周一到周五的早上地铁流量就特别大,但是到了周末人就比较少;股票涨跌的预测问题中,在节假日之...

2022-03-04 18:33:40 2743

转载 详解机器学习中的7种交叉验证方法

来源:机器学习社区、数据派THU本文约3400字,建议阅读10分钟本文与你分享7种最常用的交叉验证技术及其优缺点,提供了每种技术的代码片段。在任何有监督机器学习项目的模型构建阶段,我们...

2022-03-02 12:18:50 2470

转载 风控中的文本相似方法之余弦定理

大家好,今天看到小伍哥的一篇文章,分享给大家,做文本相似的一个基础方法。一、 余弦相似概述余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度...

2022-02-26 20:30:50 303

转载 关于机器学习模型可解释性算法的汇总

模型可解释性汇总简 介目前很多机器学习模型可以做出非常好的预测,但是它们并不能很好地解释他们是如何进行预测的,很多数据科学家都很难知晓为什么该算法会得到这样的预测结果。这是非常致命的,因...

2022-02-25 07:29:48 309

转载 风控策略的自动化生成-利用决策树分分钟生成上千条策略

本文重点:风控策略挖掘、策略推荐,策略发现,风控策略自动化,决策树风控策略同学在挖掘有效的风控规则的时候,经常需要基于业务经验,将那几个特征进行组合形成风控策略,会导致在特征组合的时候浪费...

2022-02-23 09:24:55 1195 2

原创 时间序列建模的时间戳与时序特征衍生思路

今日锦囊特征锦囊:时间序列建模的时间戳与时序特征衍生思路时间序列模型在我们日常工作中应用的场景还是会很多的,比如我们去预测未来的销售单量、预测股票价格、预测期货走势、预测酒店入住等等,这也...

2022-02-20 22:04:57 2580

原创 风控ML[13] | 特征稳定性指标PSI的原理与代码分享

PSI这个指标我们在风控建模前后都是需要密切关注的,这个指标直接反映了模型的稳定性,对于我们评估模型是否需要迭代有着直接的参考意义。今天我将从下面几方面来介绍一下这个指标。Index01 ...

2022-02-13 15:27:34 3889

原创 风控ML[12] | 不平衡数据的处理方法与代码分享

印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文章,整理相关的理论与实践知识,于是乎有了今天的文章。失衡样本在我们真实世界中是十分常见的,那么我们在机器学习(ML)中使用这些失衡样...

2022-02-09 22:31:57 816

原创 风控ML[11] | 3种连续变量分箱方法的代码分享

大家好呀!在上一篇文章《风控建模中的自动分箱的方法有哪些》中我们介绍了3种业界常用的自动最优分箱方法。1)基于CART算法的连续变量最优分箱2)基于卡方检验的连续变量最优分箱3)基于最优K...

2022-02-08 23:18:43 1211

原创 风控ML[10] | 风控建模中的自动分箱的方法有哪些

之前有位读者朋友说有空介绍一下自动分箱的方法,这个确实在我们实际建模过程前是需要解决的一个问题,简单来说就是把连续变量通过分箱的方式转换为类别变量。关于这个话题,我也借着这个主题来系统的梳...

2022-02-04 15:38:49 1632

原创 风控ML[9] | Vintage和Roll Rate 分析的详解

我们说了好几期的风控建模了,也有不少的同学私信我说一般来说我们需要怎么确定Y值呢?,到底多坏的逾期表现的客户可以被我们定义为坏客户呢?今天这篇文章,就给大家介绍一个大家既熟悉又陌生的分析工具——Vintage Analysis(账龄分析)和Roll Rate Analysis(滚动率分析),希望对大家有一定帮助。本次文章从以下几个模块来展开说说,先介绍一下理论,然后造一批虚拟数据来实际实现一波加深理解,最后再回归我们的主题。00 Index01 Roll Rate Analysis的理论02 Vin

2022-02-01 13:07:47 1257 1

原创 风控ML[9] | Vintage和Roll Rate 分析的详解

我们说了好几期的风控建模了,也有不少的同学私信我说一般来说我们需要怎么确定Y值呢?,到底多坏的逾期表现的客户可以被我们定义为坏客户呢?今天这篇文章,就给大家介绍一个大家既熟悉又陌生的分析工...

2022-01-30 10:35:08 1962

转载 欢迎大家投票~ 周末愉快

???? 周末愉快~作为一个极度佛系的运营者,虽对文章阅读量不太care,不过却还是比较care双方的反馈互动,毕竟如果只是一方的单纯自high,这样子就失去了知识碰撞???? 的可能,这是我比较不想...

2022-01-23 12:53:50 77

原创 风控ML[8] | 风控建模常见的数据源有哪些?

我们在工作中,前前后后接触到了很多的数据源,有些数据源对我们建模有很好的效果,今天抽空回忆回忆过往自己用过的或者是有听说过的一些数据源(部分可能现在由于法律规定没法继续用了),供大家对风控...

2022-01-22 16:57:12 966

原创 风控ML[7] | 风控模型调优的思路有哪些

风控模型在金融信贷的很多环节都发挥着自己的作用,但有的时候我们训练出来的模型并不能满足上线需求,那我们就需要对模型进行调优。一般来说,我个人会从以下几个角度来优化模型。01 需求定义简单来...

2022-01-16 21:57:22 727

原创 风控ML[6] | 风控模型在什么位置发光发亮

基于本人过往几年做风控建模的经验,总结了一下咱们的风控模型在金融的哪些环节发挥着自己的作用,希望可以对想进入这行的同学提供一些信息,当然,以下的总结也是基于本人浅薄的经历总结的,应该是不够...

2022-01-15 10:44:10 1828

原创 风控ML[5] | WOE前的分箱一定要单调吗

今天分享的WOE单调性讨论,也是我们在建模过程中选择特征进行模型前需要考虑的一个细节问题。关于WOE,可以参考一下前面的文章回顾一下哈,《风控ML[3] | 风控建模的WOE与IV》。今天...

2022-01-09 14:45:19 459

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除